گزارش امکانسنجی: سیستم همانندجویی مقیاس بزرگ
این گزارش، معماری فنی و چالشهای پیادهسازی یک سامانه تشخیص سرقت ادبی (Plagiarism Detection) را برای پردازش ۲ میلیون کتاب بررسی میکند. هدف اصلی، طراحی سیستمی است که با استفاده از قدرت پردازشی C# (.NET 10) و رابط کاربری پویای Angular 21، اسناد PDF را تحلیل و ایندکسگذاری کند.
تخمین توزیع دادهها
چالشهای کلیدی شناسایی شده
-
1
استخراج متن از PDF (OCR)
نیاز به Tesseract با آموزش فارسی برای کتب قدیمی.
-
2
ایندکسگذاری برداری (Vector Indexing)
مدیریت میلیونها بردار با ابزارهایی مانند Milvus یا Elasticsearch.
-
3
نمایش مقایسهای (Diff View)
نمایش Side-by-Side با اسکرول هماهنگ برای کاربر نهایی.
معماری جریان داده (Data Flow)
جریان پردازش یک فایل PDF از لحظه آپلود تا ذخیره در دیتابیس.
Angular SPA
آپلود Chunked، نمایش Diff و گزارشگیری.
.NET 10 API
Rate Limiting، مدیریت صف RabbitMQ.
C# Workers
OCR (Tesseract)، Text Normalization.
Vector Search
تولید Embedding و جستجوی شباهت (Similarity).
تحلیل تکنولوژی (Technology Stack)
مقایسه .NET Core vs Python
چرا C# (.NET 10)؟
- سرعت بسیار بالا در پردازش CPU-Bound (مناسب برای OCR/Hashing).
- مدیریت حافظه قویتر نسبت به Python در مقیاسهای بزرگ.
چرا Angular؟
- معماری کامپوننتمحور برای ساخت Diff Viewer پیچیده.
- استفاده از RxJS برای مدیریت وضعیت آپلود و پردازش بلادرنگ.
شبیهساز و مقایسه (Comparison Demo)
فرآیند آپلود فایل و سپس نمایش نتیجه به صورت Side-by-Side جهت بررسی سرقت ادبی.
⚠️ شباهت یافت شد: 35%
بخشهایی از متن با منبع شماره Ref-29401 مطابقت دارد.
نکته: در نسخه Angular واقعی، اسکرول با استفاده از Directive های اختصاصی (RxJS) برای پرفورمنس بالاتر همگامسازی میشود.