Multi-EuP: تجزیه و تحلیل سوگیری در بازیابی اطلاعات – نتیجه گیری، محدودیت ها و بیانیه اخلاقی

:::info این مقاله در arxiv تحت مجوز CC 4.0 موجود است.

نویسندگان:

(1) Jinrui Yang، دانشکده محاسبات و سیستم های اطلاعاتی، دانشگاه ملبورن (ایمیل: [email protected]

(2) تیموتی بالدوین، دانشکده محاسبات و سیستم های اطلاعاتی، دانشگاه ملبورن و دانشگاه هوش مصنوعی محمد بن زاید، امارات متحده عربی (ایمیل: (tbaldwin,trevor.cohn)@unimelb.edu.au);

(3) ترور کوهن، دانشکده محاسبات و سیستم های اطلاعاتی، دانشگاه ملبورن.

:::

چکیده و مقدمه

پیشینه و کارهای مرتبط

Multi-EuP

آزمایش ها و یافته ها

بحث تعصب زبان

نتیجه‌گیری، محدودیت‌ها، بیانیه‌های اخلاقی، قدردانی‌ها، مراجع و پیوست

6. نتیجه گیری

در این مقاله، Multi-EuP را معرفی می‌کنیم، مجموعه‌ای جدید برای بازیابی اطلاعات چندزبانه در ۲۴ زبان، که از بحث‌های پارلمان اروپا جمع‌آوری شده است. اطلاعات جمعیت شناختی ارائه شده توسط مجموعه داده Multi-EuP یک هدف دوگانه را دنبال می کند: نه تنها به وظایف بازیابی چند زبانه کمک می کند، بلکه دارای پتانسیل قابل توجهی برای پیشبرد تحقیقات در حوزه انصاف و تعصب است. این مجموعه داده می‌تواند نقشی محوری در بررسی مسائل مربوط به نمایندگی‌های عادلانه و کاهش سوگیری‌ها در تنظیمات رتبه‌بندی اسناد بازی کند.

\
شکل 2: ماتریس همبستگی زبان بین موضوعات و خروجی رتبه بندی 100 سند مرتبط برتر در یک تنظیم یک در مقابل بسیاری.  ردیف زبان‌های موضوع، ستون‌ها زبان سند است.  ماتریس سمت چپ نتایج را با استفاده از یک نشانه‌ساز مخصوص زبان نمایش می‌دهد، در حالی که ماتریس سمت راست آزمایش را با یک نشانه‌ساز فضای خالی ساده نشان می‌دهد.  هر دوی آنها تعصب زبانی قوی بین زبان موضوع و اسناد بازیابی شده نشان می دهند.

\ Multi-EuP…