طبقه‌بندی موضع سیاسی چندزبانه رسانه‌ها: طبقه‌بندی موضع سیاسی

این مقاله در arxiv تحت مجوز CC BY-NC-SA 4.0 DEED موجود است.

نویسندگان:

(1) Cristina España-Bonet، DFKI GmbH، پردیس انفورماتیک زارلند.

3. طبقه بندی موضع سیاسی

شبکه. **ما XLM-RoBERTa large (Conneau et al., 2020)، یک ترانسفورماتور چندزبانه-**بر اساس LM ماسک دار را که بر روی 100 زبان از جمله 4 زبانی که در نظر می گیریم آموزش دیده، به خوبی تنظیم می کنیم. جزئیات شبکه و کاوش هایپرپارامتر در هر مدل در پیوست F گزارش شده است.

مدل ها ما 4 مدل را آموزش می‌دهیم: 3 تنظیم دقیق تک زبانه با داده‌های انگلیسی، آلمانی و اسپانیایی، به‌علاوه یک مدل چند زبانه با ترکیب داده‌ها. همه مدل ها بر اساس تعبیه های چند زبانه (RoBERTa) هستند که به صورت تک زبانه یا چند زبانه تنظیم شده اند. توجه داشته باشید که ما هیچ مدلی را برای کاتالان آموزش نمی دهیم. با این کار، می‌خواهیم عملکرد تنظیم‌های دقیق تک‌زبانه و چندزبانه را مقایسه کنیم و امکان استفاده از مدل‌های چندزبانه برای انتقال زبان صفر شات را بررسی کنیم.

طبقه بندی درشت با مقالات روزنامه. جدول 2 نتایج را خلاصه می کند. همه مدل‌ها در مجموعه اعتبارسنجی که از توزیع مشابه داده‌های آموزشی استخراج می‌شود، بیش از 95 درصد دقت را به دست می‌آورند. برای اینکه ببینیم مدل ها چگونه با داده های دیده نشده رفتار می کنند، درصد مقالاتی را محاسبه می کنیم که …