بسیاری از زبانهایی که در سرتاسر جهان صحبت میشوند، گونههای منطقهای متعددی را پوشش میدهند (که گاهی به آن گویش گفته میشود)، مانند پرتغالی برزیلی و اروپایی یا چینی ماندارین سرزمین اصلی و تایوان. اگرچه این گونهها اغلب برای گویندگانشان قابل درک هستند، اما هنوز تفاوتهای مهمی وجود دارد. به عنوان مثال، کلمه پرتغالی برزیل برای “اتوبوس” است اتوبوس، در حالی که کلمه پرتغالی اروپایی است اتوبوس. با این حال، سیستمهای ترجمه ماشینی (MT) امروزی معمولاً به کاربران اجازه نمیدهند که مشخص کنند به کدام نوع زبان ترجمه کنند. این ممکن است منجر به سردرگمی شود اگر سیستم تنوع “اشتباه” را خروجی دهد یا انواع را به روشی غیر طبیعی مخلوط کند. همچنین، سیستمهای MT ناآگاه از منطقه تمایل دارند هر گونه که دادههای بیشتری را به صورت آنلاین در دسترس داشته باشد، ترجیح میدهند، که به طور نامتناسبی بر گویندگان انواع زبانهای فاقد منابع تأثیر میگذارد.
در «FRMT: معیاری برای ترجمه ماشینی آگاه از منطقه چند شات»، برای انتشار در معاملات انجمن زبانشناسی محاسباتیما یک مجموعه داده ارزیابی را ارائه میکنیم که برای اندازهگیری توانایی سیستمهای MT برای پشتیبانی از گونههای منطقهای از طریق یک مطالعه موردی در مورد پرتغالی برزیل در مقابل اروپایی و چینی ماندارین سرزمین اصلی در مقابل تایوان استفاده میشود. با انتشار دادههای FRMT و کد ارزیابی همراه، امیدواریم الهامبخش باشیم و جامعه پژوهشی را قادر به کشف راههای جدیدی برای ایجاد سیستمهای MT کنیم که برای تعداد زیادی از انواع زبانهای منطقهای که در سرتاسر جهان صحبت میشود، قابل استفاده است.
چالش: تعمیم چند شات
اکثر سیستمهای مدرن MT بر روی میلیونها یا میلیاردها نمونه ترجمه، مانند جمله ورودی انگلیسی و ترجمه پرتغالی مربوط به آن، آموزش دیدهاند. با این حال، اکثریت قریب به اتفاق دادههای آموزشی موجود مشخص نمیکنند که ترجمه در چه نوع منطقهای است. با توجه به این کمبود داده، ما FRMT را به عنوان معیاری برای آن قرار میدهیم. چند شات ترجمه، اندازهگیری توانایی مدل MT برای ترجمه به انواع منطقهای زمانی که بیش از 100 نمونه برچسبگذاری شده از هر گونه زبانی داده نمیشود. مدلهای MT نیاز به استفاده از الگوهای زبانی نشاندادهشده در تعداد کمی از نمونههای برچسبگذاریشده (موسوم به “نمونه”) دارند تا الگوهای مشابه را در نمونههای آموزشی بدون برچسب خود شناسایی کنند. به این ترتیب مدل ها می توانند تعمیم دادن، تولید ترجمه های صحیح از پدیده هایی که به صراحت در نمونه ها نشان داده نشده اند.
![]() |
تصویری از یک سیستم MT چند شات که جمله انگلیسی «اتوبوس رسید» را به دو نوع منطقه ای پرتغالی ترجمه می کند: برزیلی (🇧🇷; چپ) و اروپایی (🇵🇹; درست). |
رویکردهای چند شات به MT جذاب هستند زیرا اضافه کردن پشتیبانی از انواع منطقهای اضافی به یک سیستم موجود را بسیار آسانتر میکنند. در حالی که کار ما مختص انواع منطقهای دو زبان است، ما پیشبینی میکنیم که روشهایی که عملکرد خوبی دارند به آسانی برای سایر زبانها و انواع منطقهای قابل اجرا باشند. در اصل، این روش ها باید برای تمایزات زبانی دیگر مانند رسمی و سبک نیز کار کنند.
جمع آوری داده ها
مجموعه دادههای FRMT شامل مقالات جزئی ویکیپدیا انگلیسی است که از مجموعه دادههای Wiki40b گرفته شدهاند، که توسط مترجمان حرفهای و پولی به انواع مختلف منطقهای پرتغالی و ماندارین ترجمه شدهاند. به منظور برجسته کردن چالش های کلیدی ترجمه آگاه از منطقه، مجموعه داده را با استفاده از سه سطل محتوا طراحی کردیم: (1) Lexical، (2) Entity، و (3) Random.
- سطل واژگانی بر تفاوت های منطقه ای در انتخاب کلمه تمرکز می کند، مانند “اتوبوس” در مقابل. “اتوبوس” تمایز هنگام ترجمه یک جمله با کلمه ”اتوبوسبه ترتیب به پرتغالی برزیل در مقابل اروپا. ما 20 تا 30 اصطلاح را به صورت دستی جمعآوری کردیم که دارای ترجمههای متمایز منطقهای بر اساس وبلاگها و وبسایتهای آموزشی بودند، و ترجمهها را با بازخورد از افراد داوطلب بومی هر منطقه فیلتر و بررسی کردیم. با توجه به فهرست حاصل از اصطلاحات انگلیسی، ما متونی با حداکثر 100 جمله را از مقالات مرتبط ویکیپدیای انگلیسی (مثلاً اتوبوس) استخراج کردیم. همین فرآیند به طور مستقل برای ماندارین انجام شد.
- سطل Entity به روشی مشابه پر شده است و به افراد، مکانها یا موجودیتهای دیگر مربوط میشود که به شدت با یکی از دو منطقه مورد نظر برای یک زبان خاص مرتبط هستند. یک جمله گویا مانند “در لیسبون، من اغلب سوار اتوبوس می شدم” را در نظر بگیرید. به منظور ترجمه صحیح آن به پرتغالی برزیل، یک مدل باید بر دو مشکل بالقوه غلبه کند:
- ارتباط جغرافیایی قوی بین لیسبون و پرتغال ممکن است مدلی را برای ایجاد یک مدل تحت تأثیر قرار دهد اروپایی ترجمه پرتغالی به جای آن، به عنوان مثال، با انتخاب “اتوبوس” به جای “اتوبوس“.
- جایگزین کردن ”لیسبون” با “برازیلیاممکن است یک روش ساده لوحانه برای یک مدل برای بومی سازی خروجی خود به سمت پرتغالی برزیل باشد، اما از نظر معنایی نادرست است، حتی در یک ترجمه روان.
- سطل تصادفی برای بررسی اینکه آیا یک مدل به درستی با سایر پدیدههای متنوع برخورد میکند استفاده میشود و شامل متنی از 100 مقاله نمونهبرداری تصادفی از مجموعههای «ویژه» و «خوب» ویکیپدیا است.
روش ارزیابی
برای تأیید اینکه ترجمههای جمعآوریشده برای مجموعه دادههای FRMT پدیدههای خاص منطقه را به تصویر میکشند، ما یک ارزیابی انسانی از کیفیت آنها انجام دادیم. حاشیه نویسان خبره از هر منطقه از چارچوب معیارهای کیفیت چند بعدی (MQM) برای شناسایی و دسته بندی خطاها در ترجمه ها استفاده کردند. این چارچوب شامل یک طرح وزن دهی بر حسب دسته برای تبدیل خطاهای شناسایی شده به یک امتیاز واحد است که تقریباً تعداد خطاهای اصلی در هر جمله را نشان می دهد. بنابراین عدد کمتر نشان دهنده ترجمه بهتر است. برای هر منطقه، ما از رتبهدهندگان MQM خواستیم که هم ترجمههای منطقه خود و هم ترجمههای منطقه دیگر زبان خود را امتیاز دهند. به عنوان مثال، ارزیاب های پرتغالی برزیل هر دو ترجمه پرتغالی برزیل و اروپایی را امتیاز دادند. تفاوت بین این دو امتیاز نشاندهنده شیوع پدیدههای زبانی است که در یک واریته قابل قبول هستند اما در دیگری قابل قبول نیستند. ما متوجه شدیم که هم در پرتغالی و هم در چینی، رتبهدهندگان بهطور میانگین، تقریباً دو خطای عمدهتر در هر جمله را در ترجمههای ناهماهنگ نسبت به ترجمههای منطبق شناسایی کردند. این نشان می دهد که مجموعه داده ما واقعاً پدیده های خاص منطقه را ضبط می کند.
در حالی که ارزیابی انسانی بهترین راه برای اطمینان از کیفیت مدل است، اغلب آهسته و گران است. بنابراین میخواستیم یک معیار خودکار موجود پیدا کنیم که محققان بتوانند از آن برای ارزیابی مدلهای خود در معیار ما استفاده کنند و chrF، BLEU و BLEURT را در نظر بگیرند. با استفاده از ترجمههای چند مدل پایه که توسط ارزیابهای MQM ما نیز ارزیابی شدهاند، متوجه شدیم که BLEURT بهترین همبستگی را با قضاوتهای انسان دارد و قدرت آن همبستگی (0.65 ضریب همبستگی پیرسون، r) با سازگاری بین حاشیه نویس قابل مقایسه است (0.70 همبستگی درون کلاسی).
متریک | ρ پیرسون | ||
chrF | 0.48 | ||
BLEU | 0.58 | ||
بلوز | 0.65 |
همبستگی بین معیارهای مختلف خودکار و قضاوت های انسانی در مورد کیفیت ترجمه در زیر مجموعه ای از FRMT. مقادیر بین -1 و 1 هستند. بالاتر بهتر است |
عملکرد سیستم
ارزیابی ما تعداد انگشت شماری از مدل های اخیر را پوشش می دهد که قادر به کنترل چند شات هستند. بر اساس ارزیابی انسانی با MQM، روشهای پایه همگی توانایی بومیسازی خروجی خود را برای پرتغالی نشان دادند، اما برای ماندارین، آنها عمدتاً در استفاده از دانش منطقه هدف برای تولید ترجمههای برتر سرزمین اصلی یا تایوان شکست خوردند.
مدل زبان اخیر گوگل، PaLM، به طور کلی در بین خطوط پایه که ما ارزیابی کردیم، بهترین رتبه را کسب کرد. به منظور تولید ترجمههای هدفمند منطقهای با PALM، یک دستور آموزنده را به مدل وارد میکنیم و سپس متنی را از آن برای پر کردن جای خالی تولید میکنیم (نمونه زیر را ببینید).
Translate the following texts from English to European Portuguese. English: [English example 1]. European Portuguese: [correct translation 1]. ... English: [input]. European Portuguese: _____"
PALM با استفاده از یک مثال، نتایج قوی به دست آورد، و زمانی که به ده نمونه افزایش یافت، در پرتغالی دستاوردهای کیفی کمی داشت. این عملکرد زمانی قابل توجه است که توجه داشته باشیم که PalM به روشی بدون نظارت آموزش داده شده است. نتایج ما همچنین نشان میدهد که مدلهای زبانی مانند PALM ممکن است در به خاطر سپردن واژههای خاص منطقهای که برای ترجمه روان مورد نیاز است مهارت خاصی داشته باشند. با این حال، هنوز شکاف عملکرد قابل توجهی بین عملکرد PalM و انسان وجود دارد. برای جزئیات بیشتر به مقاله ما مراجعه کنید.
![]() |
![]() |
عملکرد MQM در سطل های داده با استفاده از ترجمه های انسانی و PALM. میلههای ضخیم نشاندهنده مورد منطبق با منطقه است، جایی که رتبهدهندگان از هر منطقه ترجمههای هدفگذاری شده در منطقه خودشان را ارزیابی میکنند. میلههای نازک درج شده نشاندهنده مورد ناهماهنگ منطقه است، جایی که رتبهدهندگان از هر منطقه ترجمههای هدفگذاری شده در منطقه دیگر را ارزیابی میکنند. ترجمه های انسانی در همه موارد پدیده های منطقه ای را نشان می دهند. ترجمههای PalM این کار را فقط برای همه سطلهای پرتغالی و سطل واژگانی ماندارین انجام میدهند. |
نتیجه
در آینده نزدیک، امیدواریم شاهد جهانی باشیم که در آن سیستم های تولید زبان، به ویژه ترجمه ماشینی، بتوانند از تمامی جوامع گوینده پشتیبانی کنند. ما میخواهیم با کاربران در جایی که هستند ملاقات کنیم و زبانی روان و مناسب برای منطقه یا منطقه آنها ایجاد کنیم. برای این منظور، ما مجموعه داده و معیار FRMT را منتشر کردهایم، که محققان را قادر میسازد تا به راحتی عملکرد را برای مدلهای MT آگاه از منطقه مقایسه کنند. انواع زبان در FRMT که از طریق مطالعات ارزیابی انسانی دقیق ما تأیید شده است، تفاوت های قابل توجهی دارند که خروجی های مدل های MT آگاه از منطقه باید منعکس شود. ما هیجانزده هستیم که ببینیم چگونه محققان از این معیار در توسعه مدلهای جدید MT استفاده میکنند که از انواع زبانهای کمتر ارائهشده و همه جوامع گوینده بهتر پشتیبانی میکنند، که منجر به بهبود برابری در فناوریهای زبان طبیعی میشود.
سپاسگزاریها
ما از نویسندگان مقاله خود به خاطر همه مشارکتهایشان در این پروژه تشکر میکنیم: تیموتی دوزات، خاویر گارسیا، دن گرت، جیسون ریسا، اورهان فیرات و نوح کنستانت. برای بحث مفید و نظرات در مورد مقاله، ما از ژاکوب آیزنشتاین، نوح فیدل، مکداف هیوز و مینگفی لاو تشکر میکنیم. برای بازخورد ضروری در مورد تفاوتهای زبانی خاص منطقهای، از آندره آرائوجو، چونگ-چینگ چانگ، آندریا کونا، فیلیپه گونسالوس، نونو گوئریرو، مندی گوئو، لوئیس میراندا، ویتور رودریگز و لینتینگ ژو تشکر میکنیم. برای پشتیبانی لجستیکی در جمعآوری ترجمهها و رتبهبندیهای انسانی، از تیم Google Translate تشکر میکنیم. ما از مترجمان حرفه ای و ارزیاب های MQM برای نقششان در تولید مجموعه داده تشکر می کنیم. همچنین از تام اسمال برای ارائه انیمیشن در این پست تشکر می کنیم.