جستجوی برداری: نمایش الگوریتم رتبه‌بندی مجدد

جستجوی برداری به طور موثر شباهت معنایی را برای بازیابی نسل افزوده ارائه می دهد، اما با جستجوهای کوتاه کلیدواژه یا عبارات جستجوی خارج از دامنه عملکرد ضعیفی دارد. تکمیل بازیابی برداری با جستجوهای کلیدواژه مانند BM25 و ترکیب نتایج با رتبه‌بندی مجدد، به روشی استاندارد برای دریافت بهترین‌ها از هر دو جهان تبدیل شده است.

رتبه‌بندی‌های مجدد مدل‌های ML هستند که مجموعه‌ای از نتایج جستجو را می‌گیرند و آنها را برای بهبود ارتباط مرتب می‌کنند. آنها پرس و جوی جفت شده با هر نتیجه کاندید را با جزئیات بررسی می کنند که از نظر محاسباتی گران است اما نتایج دقیق تری نسبت به روش های بازیابی ساده به تنهایی ایجاد می کند. این کار می تواند به عنوان مرحله دوم در بالای یک جستجو انجام شود (100 نتیجه را از جستجوی برداری خارج کنید، سپس از رتبه بندی مجدد بخواهید تا 10 مورد برتر را شناسایی کند) یا اغلب، ترکیب نتایج از انواع مختلف جستجو. در این مورد، جستجوی برداری و جستجوی کلمه کلیدی.

اما رتبه‌بندی‌های خارج از فروشگاه چقدر خوب هستند؟ برای فهمیدن این موضوع، شش رتبه‌بندی مجدد را روی متن از آن آزمایش کردم معیار ViDoRe، از Gemini Flash برای استخراج متن از تصاویر استفاده کنید. جزئیات مربوط به مجموعه داده ها را می توان در بخش 3.1 یافت مقاله ColPali. قابل ذکر است، منابع TabFQuAD و Shift Project به زبان فرانسوی هستند. بقیه به زبان انگلیسی هستند

ما این رتبه‌بندی‌های مجدد را آزمایش کردیم:

  • فیوژن رتبه متقابل (RRF)، فرمولی برای ترکیب نتایج از …

Source link