Multi-EuP: تجزیه و تحلیل سوگیری در بازیابی اطلاعات – آزمایش ها و یافته ها

:::info این مقاله در arxiv تحت مجوز CC 4.0 موجود است.

نویسندگان:

(1) Jinrui Yang، دانشکده محاسبات و سیستم های اطلاعاتی، دانشگاه ملبورن (ایمیل: [email protected]

(2) تیموتی بالدوین، دانشکده محاسبات و سیستم های اطلاعاتی، دانشگاه ملبورن و دانشگاه هوش مصنوعی محمد بن زاید، امارات متحده عربی (ایمیل: (tbaldwin,trevor.cohn)@unimelb.edu.au);

(3) ترور کوهن، دانشکده محاسبات و سیستم های اطلاعاتی، دانشگاه ملبورن.

:::

چکیده و مقدمه

پیشینه و کارهای مرتبط

Multi-EuP

آزمایش ها و یافته ها

بحث تعصب زبان

نتیجه‌گیری، محدودیت‌ها، بیانیه‌های اخلاقی، قدردانی‌ها، مراجع و پیوست

4 آزمایش ها و یافته ها

\ ما آزمایشات مقدماتی را در تنظیمات یک در مقابل یک و یک در مقابل بسیاری انجام می دهیم، همانطور که در بالا توضیح داده شد.

\
مواد و روش ها ما آزمایش‌های خود را بر مبنای BM25 با تنظیمات پیش‌فرض (k1 = 0.9 و b = 0.4) قرار می‌دهیم، که یک خط پایه بازیابی اطلاعات سنتی محبوب است. پیاده سازی ما بر اساس Pyserini (لین و همکاران، 2021) است که بر اساس Lucene ساخته شده است (Yang et al., 2017). قابل ذکر است، آخرین API LUCENE 8.5.1 توکن سازهای مخصوص زبان را ارائه می دهد. [6] شامل 19 زبان از 24 زبان موجود در Multi-EuP. برای زبان های باقی مانده – یعنی لهستانی (PL)، کرواتی (HR)، اسلواکی…