گزارش امکان‌سنجی: سیستم همانندجویی مقیاس بزرگ

این گزارش، معماری فنی و چالش‌های پیاده‌سازی یک سامانه تشخیص سرقت ادبی (Plagiarism Detection) را برای پردازش ۲ میلیون کتاب بررسی می‌کند. هدف اصلی، طراحی سیستمی است که با استفاده از قدرت پردازشی C# (.NET 10) و رابط کاربری پویای Angular 21، اسناد PDF را تحلیل و ایندکس‌گذاری کند.

حجم داده هدف

2,000,000+

کتاب و مقاله علمی PDF

زمان پاسخ‌دهی هدف

< 800ms

برای جستجوی شباهت در متن کامل

معماری پیشنهادی

Microservices

پایه: .NET 10 + Angular

تخمین توزیع داده‌ها

چالش‌های کلیدی شناسایی شده

1

استخراج متن از PDF (OCR)

نیاز به Tesseract با آموزش فارسی برای کتب قدیمی.
2

ایندکس‌گذاری برداری (Vector Indexing)

مدیریت میلیون‌ها بردار با ابزارهایی مانند Milvus یا Elasticsearch.
3

نمایش مقایسه‌ای (Diff View)

نمایش Side-by-Side با اسکرول هماهنگ برای کاربر نهایی.

شبیه‌ساز و مقایسه (Comparison Demo)

فرآیند آپلود فایل و سپس نمایش نتیجه به صورت Side-by-Side جهت بررسی سرقت ادبی.

انتخاب فایل جهت بررسی

1. استخراج متن0%

2. جستجوی برداریمنتظر...

گزارش امکان‌سنجی: سیستم همانندجویی مقیاس بزرگ

تخمین توزیع داده‌ها

چالش‌های کلیدی شناسایی شده

استخراج متن از PDF (OCR)

ایندکس‌گذاری برداری (Vector Indexing)

نمایش مقایسه‌ای (Diff View)

معماری جریان داده (Data Flow)

Angular SPA

.NET 10 API

C# Workers

Vector Search

تحلیل تکنولوژی (Technology Stack)

مقایسه .NET Core vs Python

چرا C# (.NET 10)؟

چرا Angular؟

شبیه‌ساز و مقایسه (Comparison Demo)

⚠️ شباهت یافت شد: 35%