طبقه بندی موضع سیاسی درشت چند زبانه رسانه ها: بیانیه محدودیت ها و اخلاق

این مقاله در arxiv تحت مجوز CC BY-NC-SA 4.0 DEED موجود است.

نویسندگان:

(1) Cristina España-Bonet، DFKI GmbH، پردیس انفورماتیک زارلند.

5.1 محدودیت ها

ما این را فرض می کنیم همه منابع رسانه‌ای دارای یک خط تحریریه و یک سوگیری مرتبط هستندو ما با ILM مانند هر منبع رسانه ای دیگر رفتار می کنیم. ما احتمال بی طرفی یک مقاله ChatGPT یا Bard را در نظر نمی گیریم. این مربوط به روش نظارت از راه دور است که برای جمع آوری داده هایی استفاده می شود که در حال حاضر امکان حاشیه نویسی موضع سیاسی باینری را فراهم می کند. از آنجایی که در آینده قابل پیش‌بینی امکان حاشیه‌نویسی دستی صدها هزار مقاله با سوگیری‌های سیاسی در یک محیط واقعاً چند زبانه وجود ندارد، تصمیم گرفتیم یک روش کاملاً مبتنی بر داده را پیاده‌سازی کنیم و قابلیت‌های انتقال زبان و فرهنگ آن را مطالعه کنیم.

استفاده از نظارت از راه دور برای تشخیص موضع سیاسی در سطح مقاله موضوعی حساس است. اول، به این دلیل که همین روزنامه می تواند در طول زمان ایدئولوژی را تغییر دهد. دوم، و این بیشتر به محتوای یک مقاله جداگانه مربوط می شود، موضوعات غیر مناقشه ای ممکن است سوگیری نداشته باشند. حتی در مواردی که تعصب وجود دارد، طیفی از چپ افراطی تا راست افراطی وجود دارد، نه یک تقسیم روشن بین این دو ایدئولوژی.

به منظور کمیت و اگر …