طبقه بندی موضع سیاسی درشت چند زبانه رسانه ها: چکیده و مقدمه

این مقاله در arxiv تحت مجوز CC BY-NC-SA 4.0 DEED موجود است.

نویسندگان:

(1) Cristina España-Bonet، DFKI GmbH، پردیس انفورماتیک زارلند.

خلاصه

دستیابی به بی طرفی دشوار است و در سیاست، ذهنی است. رسانه‌های سنتی معمولاً خط تحریریه‌ای را اتخاذ می‌کنند که می‌تواند توسط خوانندگان بالقوه آنها به عنوان شاخصی برای سوگیری رسانه‌ها مورد استفاده قرار گیرد. در حال حاضر چندین پلتفرم به خبرگزاری ها بر اساس تعصب سیاسی آنها رتبه بندی می کنند. خط تحریریه و رتبه بندی به خوانندگان کمک می کند تا دیدی متعادل از اخبار جمع آوری کنند. اما با ظهور مدل‌های زبانی که از دستورالعمل پیروی می‌کنند، کارهایی مانند نوشتن مقاله روزنامه را می‌توان به رایانه‌ها محول کرد. بدون تحمیل یک شخصیت مغرضانه، یک رسانه خبری مبتنی بر هوش مصنوعی در رتبه‌بندی‌های سوگیری قرار می‌گیرد؟ در این کار، ما از رتبه‌بندی خبرگزاری‌های معتبر برای ایجاد مجموعه‌ای چندزبانه از اخبار با حاشیه‌نویسی موضعی درشت (چپ و راست) همراه با حاشیه‌نویسی‌های موضوعی استخراج‌شده به‌طور خودکار استفاده می‌کنیم. ما نشان می‌دهیم که طبقه‌بندی‌کننده‌های آموزش‌دیده بر روی این داده‌ها می‌توانند خط سرمقاله اکثر روزنامه‌های دیده نشده را به زبان‌های انگلیسی، آلمانی، اسپانیایی و کاتالانی شناسایی کنند. سپس طبقه‌بندی‌کننده‌ها را برای 101 مقاله روزنامه‌مانند که توسط ChatGPT و Bard به 4 زبان در دوره‌های زمانی مختلف نوشته شده‌اند اعمال می‌کنیم. مشاهده می کنیم که مشابه …