Multi-EuP: تجزیه و تحلیل سوگیری در بازیابی اطلاعات – بحث سوگیری زبان

:::info این مقاله در arxiv تحت مجوز CC 4.0 موجود است.

نویسندگان:

(1) Jinrui Yang، دانشکده محاسبات و سیستم های اطلاعاتی، دانشگاه ملبورن (ایمیل: [email protected]

(2) تیموتی بالدوین، دانشکده محاسبات و سیستم های اطلاعاتی، دانشگاه ملبورن و دانشگاه هوش مصنوعی محمد بن زاید، امارات متحده عربی (ایمیل: (tbaldwin,trevor.cohn)@unimelb.edu.au);

(3) ترور کوهن، دانشکده محاسبات و سیستم های اطلاعاتی، دانشگاه ملبورن.

:::

چکیده و مقدمه

پیشینه و کارهای مرتبط

Multi-EuP

آزمایش ها و یافته ها

بحث تعصب زبان

نتیجه‌گیری، محدودیت‌ها، بیانیه‌های اخلاقی، قدردانی‌ها، مراجع و پیوست

5 بحث تعصب زبان

با توجه به یافته‌های خود در یک محیط یک در مقابل بسیاری، ما مشتاق بودیم که بیشتر در مورد علل اصلی اختلاف بین زبان‌ها تحقیق کنیم.

5.1 تشخیص سوگیری

اگر زبان پرس و جو با یک زبان سند بهتر تراز باشد نسبت به زبان دیگر، سوگیری زبان محتمل است. همانطور که قبلا ذکر شد، Pyserini از توکن سازهای مختلف، به ویژه توکن سازهای مخصوص زبان یا توکن سازی فضای خالی ساده پشتیبانی می کند. بنابراین، در تنظیمات یک در مقابل بسیاری، ترکیب 100 رتبه برتر را برای 100 موضوع تجزیه و تحلیل می کنیم. در طول نمایه سازی مجموعه اسناد، ما …