گزارش امکان‌سنجی: سیستم همانندجویی مقیاس بزرگ

این گزارش، معماری فنی و چالش‌های پیاده‌سازی یک سامانه تشخیص سرقت ادبی (Plagiarism Detection) را برای پردازش ۲ میلیون کتاب بررسی می‌کند. هدف اصلی، طراحی سیستمی است که با استفاده از قدرت پردازشی C# (.NET 10) و رابط کاربری پویای Angular 21، اسناد PDF را تحلیل و ایندکس‌گذاری کند.

حجم داده هدف
2,000,000+
کتاب و مقاله علمی PDF
زمان پاسخ‌دهی هدف
< 800ms
برای جستجوی شباهت در متن کامل
معماری پیشنهادی
Microservices
پایه: .NET 10 + Angular

تخمین توزیع داده‌ها

چالش‌های کلیدی شناسایی شده

  • 1

    استخراج متن از PDF (OCR)

    نیاز به Tesseract با آموزش فارسی برای کتب قدیمی.

  • 2

    ایندکس‌گذاری برداری (Vector Indexing)

    مدیریت میلیون‌ها بردار با ابزارهایی مانند Milvus یا Elasticsearch.

  • 3

    نمایش مقایسه‌ای (Diff View)

    نمایش Side-by-Side با اسکرول هماهنگ برای کاربر نهایی.