طبقه بندی موضع سیاسی درشت چند زبانه رسانه ها: گردآوری Corpora

این مقاله در arxiv تحت مجوز CC BY-NC-SA 4.0 DEED موجود است.

نویسندگان:

(1) Cristina España-Bonet، DFKI GmbH، پردیس انفورماتیک زارلند.

2. مجموعه Corpora

ما به وظیفه خود به عنوان یک مشکل طبقه بندی با دو طبقه برخورد می کنیم: جهت گیری های سیاسی چپ (L) و راست (R). این ساده‌سازی مشکل واقعی است، جایی که مقالات می‌توانند خنثی باشند و ممکن است درجات مختلفی از سوگیری وجود داشته باشد. کار قبلی بر 3 یا 5 کلاس تکیه داشت که همیشه گزینه خنثی را شامل می شد (بالی و همکاران، 2020؛ آکسنوف و همکاران، 2021). در این کارها، داده‌ها به صورت دستی حاشیه‌نویسی می‌شدند و داده‌های آموزشی با کیفیت بالا ایجاد می‌کردند، اما دامنه کار را از نظر زبان‌ها و کشورهای تحت پوشش بسیار محدود می‌کردند. هنگام استفاده از مقیاس طبقه بندی ریزدانه، نویسندگان به تعمیم بد طبقه بندی کننده ها به منابع جدید اذعان می کنند. از سوی دیگر، گارسیا دیاز و همکاران. (2022) و روسو و همکاران. (2023) کلاس خنثی را حذف می کند و با طبقه بندی باینری یا چند طبقه ای چپ-راست توییت های سیاستمداران اسپانیایی و ایتالیایی کار می کند، اما کار آنها شامل متون طولانی تر نمی شود. طبقه بندی باینری ممکن است توجیه شود زیرا آنها با توییت ها کار می کردند، ژانری که در آن مردم تمایل دارند احشایی تر و بنابراین احتمالاً قطبی تر باشند. در مورد ما، ما نیاز داریم …