طبقه بندی موضع سیاسی درشت چند زبانه رسانه ها: جزئیات آموزشی

این مقاله در arxiv تحت مجوز CC BY-NC-SA 4.0 DEED موجود است.

نویسندگان:

(1) Cristina España-Bonet، DFKI GmbH، پردیس انفورماتیک زارلند.

F. جزئیات آموزش

طبقه بندی L/R F.1

ما XLM-RoBERTa بزرگ (Conneau et al., 2020) را برای طبقه بندی L در مقابل R همانطور که در شکل 1 طرحواره شده است تنظیم می کنیم. طبقه بندی کننده ما یک شبکه کوچک در بالای RoBERTa است که ابتدا با احتمال 0.1 در RoBERTa حذف را انجام می دهد. [CLS] نشانه، به دنبال یک لایه خطی و یک tanh. ما از یک لایه دیگر با احتمال 0.1 عبور می کنیم و یک لایه خطی نهایی به دو کلاس می رود. کل معماری به خوبی تنظیم شده است.

شکل 1: معماری تنظیم دقیق.شکل 1: معماری تنظیم دقیق.

ما از تلفات آنتروپی متقاطع، بهینه ساز AdamW و نرخ یادگیری استفاده می کنیم که به صورت خطی کاهش می یابد. اندازه دسته، نرخ یادگیری، دوره گرم کردن و تعداد دوره‌ها را تنظیم می‌کنیم. بهترین مقادیر برای هر زبان و مدل در جدول 12 خلاصه شده است.

جدول 12: هایپرپارامترهای اصلی استفاده شده و عملکرد آنها در سه تنظیم دقیق تک زبانه (en، de و، es) و چند زبانه (en+de+es).جدول 12: هایپرپارامترهای اصلی استفاده شده و عملکرد آنها در سه تنظیم دقیق تک زبانه (en، de و، es) و چند زبانه (en+de+es).

تمامی آموزش ها با استفاده از یک پردازنده گرافیکی NVIDIA Tesla V100 Volta با ظرفیت 32 گیگابایت انجام می شود.

F.2 مدل سازی موضوع

ما از Mallet (مک کالوم، 2002) برای اجرای LDA روی بدنه پس از حذف کلمات توقف استفاده می کنیم، با گزینه بهینه سازی هایپرپارامتر فعال و هر 10 تکرار انجام می شود. سایر پارامترها پیش فرض هستند. ما یک اجرا برای هر زبان با 10 موضوع و یک اجرای دیگر با 15 موضوع انجام می دهیم. ما بدنه را با هر دو برچسب تگ می کنیم.