معیاری برای ترجمه ماشینی آگاه از منطقه چند شات – وبلاگ هوش مصنوعی گوگل

بسیاری از زبان‌هایی که در سرتاسر جهان صحبت می‌شوند، گونه‌های منطقه‌ای متعددی را پوشش می‌دهند (که گاهی به آن گویش گفته می‌شود)، مانند پرتغالی برزیلی و اروپایی یا چینی ماندارین سرزمین اصلی و تایوان. اگرچه این گونه‌ها اغلب برای گویندگانشان قابل درک هستند، اما هنوز تفاوت‌های مهمی وجود دارد. به عنوان مثال، کلمه پرتغالی برزیل برای “اتوبوس” است اتوبوس، در حالی که کلمه پرتغالی اروپایی است اتوبوس. با این حال، سیستم‌های ترجمه ماشینی (MT) امروزی معمولاً به کاربران اجازه نمی‌دهند که مشخص کنند به کدام نوع زبان ترجمه کنند. این ممکن است منجر به سردرگمی شود اگر سیستم تنوع “اشتباه” را خروجی دهد یا انواع را به روشی غیر طبیعی مخلوط کند. همچنین، سیستم‌های MT ناآگاه از منطقه تمایل دارند هر گونه که داده‌های بیشتری را به صورت آنلاین در دسترس داشته باشد، ترجیح می‌دهند، که به طور نامتناسبی بر گویندگان انواع زبان‌های فاقد منابع تأثیر می‌گذارد.

در «FRMT: معیاری برای ترجمه ماشینی آگاه از منطقه چند شات»، برای انتشار در معاملات انجمن زبانشناسی محاسباتیما یک مجموعه داده ارزیابی را ارائه می‌کنیم که برای اندازه‌گیری توانایی سیستم‌های MT برای پشتیبانی از گونه‌های منطقه‌ای از طریق یک مطالعه موردی در مورد پرتغالی برزیل در مقابل اروپایی و چینی ماندارین سرزمین اصلی در مقابل تایوان استفاده می‌شود. با انتشار داده‌های FRMT و کد ارزیابی همراه، امیدواریم الهام‌بخش باشیم و جامعه پژوهشی را قادر به کشف راه‌های جدیدی برای ایجاد سیستم‌های MT کنیم که برای تعداد زیادی از انواع زبان‌های منطقه‌ای که در سرتاسر جهان صحبت می‌شود، قابل استفاده است.

چالش: تعمیم چند شات

اکثر سیستم‌های مدرن MT بر روی میلیون‌ها یا میلیاردها نمونه ترجمه، مانند جمله ورودی انگلیسی و ترجمه پرتغالی مربوط به آن، آموزش دیده‌اند. با این حال، اکثریت قریب به اتفاق داده‌های آموزشی موجود مشخص نمی‌کنند که ترجمه در چه نوع منطقه‌ای است. با توجه به این کمبود داده، ما FRMT را به عنوان معیاری برای آن قرار می‌دهیم. چند شات ترجمه، اندازه‌گیری توانایی مدل MT برای ترجمه به انواع منطقه‌ای زمانی که بیش از 100 نمونه برچسب‌گذاری شده از هر گونه زبانی داده نمی‌شود. مدل‌های MT نیاز به استفاده از الگوهای زبانی نشان‌داده‌شده در تعداد کمی از نمونه‌های برچسب‌گذاری‌شده (موسوم به “نمونه”) دارند تا الگوهای مشابه را در نمونه‌های آموزشی بدون برچسب خود شناسایی کنند. به این ترتیب مدل ها می توانند تعمیم دادن، تولید ترجمه های صحیح از پدیده هایی که به صراحت در نمونه ها نشان داده نشده اند.

تصویری از یک سیستم MT چند شات که جمله انگلیسی «اتوبوس رسید» را به دو نوع منطقه ای پرتغالی ترجمه می کند: برزیلی (🇧🇷; چپ) و اروپایی (🇵🇹; درست).

رویکردهای چند شات به MT جذاب هستند زیرا اضافه کردن پشتیبانی از انواع منطقه‌ای اضافی به یک سیستم موجود را بسیار آسان‌تر می‌کنند. در حالی که کار ما مختص انواع منطقه‌ای دو زبان است، ما پیش‌بینی می‌کنیم که روش‌هایی که عملکرد خوبی دارند به آسانی برای سایر زبان‌ها و انواع منطقه‌ای قابل اجرا باشند. در اصل، این روش ها باید برای تمایزات زبانی دیگر مانند رسمی و سبک نیز کار کنند.

مطالب پیشنهادی  تشخیص ناهنجاری بدون نظارت و نیمه نظارت با ML داده محور - وبلاگ هوش مصنوعی گوگل

جمع آوری داده ها

مجموعه داده‌های FRMT شامل مقالات جزئی ویکی‌پدیا انگلیسی است که از مجموعه داده‌های Wiki40b گرفته شده‌اند، که توسط مترجمان حرفه‌ای و پولی به انواع مختلف منطقه‌ای پرتغالی و ماندارین ترجمه شده‌اند. به منظور برجسته کردن چالش های کلیدی ترجمه آگاه از منطقه، مجموعه داده را با استفاده از سه سطل محتوا طراحی کردیم: (1) Lexical، (2) Entity، و (3) Random.

  1. سطل واژگانی بر تفاوت های منطقه ای در انتخاب کلمه تمرکز می کند، مانند “اتوبوس” در مقابل. “اتوبوس” تمایز هنگام ترجمه یک جمله با کلمه ”اتوبوسبه ترتیب به پرتغالی برزیل در مقابل اروپا. ما 20 تا 30 اصطلاح را به صورت دستی جمع‌آوری کردیم که دارای ترجمه‌های متمایز منطقه‌ای بر اساس وبلاگ‌ها و وب‌سایت‌های آموزشی بودند، و ترجمه‌ها را با بازخورد از افراد داوطلب بومی هر منطقه فیلتر و بررسی کردیم. با توجه به فهرست حاصل از اصطلاحات انگلیسی، ما متونی با حداکثر 100 جمله را از مقالات مرتبط ویکی‌پدیای انگلیسی (مثلاً اتوبوس) استخراج کردیم. همین فرآیند به طور مستقل برای ماندارین انجام شد.
  2. سطل Entity به روشی مشابه پر شده است و به افراد، مکان‌ها یا موجودیت‌های دیگر مربوط می‌شود که به شدت با یکی از دو منطقه مورد نظر برای یک زبان خاص مرتبط هستند. یک جمله گویا مانند “در لیسبون، من اغلب سوار اتوبوس می شدم” را در نظر بگیرید. به منظور ترجمه صحیح آن به پرتغالی برزیل، یک مدل باید بر دو مشکل بالقوه غلبه کند:
    1. ارتباط جغرافیایی قوی بین لیسبون و پرتغال ممکن است مدلی را برای ایجاد یک مدل تحت تأثیر قرار دهد اروپایی ترجمه پرتغالی به جای آن، به عنوان مثال، با انتخاب “اتوبوس” به جای “اتوبوس“.
    2. جایگزین کردن ”لیسبون” با “برازیلیاممکن است یک روش ساده لوحانه برای یک مدل برای بومی سازی خروجی خود به سمت پرتغالی برزیل باشد، اما از نظر معنایی نادرست است، حتی در یک ترجمه روان.
  3. سطل تصادفی برای بررسی اینکه آیا یک مدل به درستی با سایر پدیده‌های متنوع برخورد می‌کند استفاده می‌شود و شامل متنی از 100 مقاله نمونه‌برداری تصادفی از مجموعه‌های «ویژه» و «خوب» ویکی‌پدیا است.

روش ارزیابی

برای تأیید اینکه ترجمه‌های جمع‌آوری‌شده برای مجموعه داده‌های FRMT پدیده‌های خاص منطقه را به تصویر می‌کشند، ما یک ارزیابی انسانی از کیفیت آنها انجام دادیم. حاشیه نویسان خبره از هر منطقه از چارچوب معیارهای کیفیت چند بعدی (MQM) برای شناسایی و دسته بندی خطاها در ترجمه ها استفاده کردند. این چارچوب شامل یک طرح وزن دهی بر حسب دسته برای تبدیل خطاهای شناسایی شده به یک امتیاز واحد است که تقریباً تعداد خطاهای اصلی در هر جمله را نشان می دهد. بنابراین عدد کمتر نشان دهنده ترجمه بهتر است. برای هر منطقه، ما از رتبه‌دهندگان MQM خواستیم که هم ترجمه‌های منطقه خود و هم ترجمه‌های منطقه دیگر زبان خود را امتیاز دهند. به عنوان مثال، ارزیاب های پرتغالی برزیل هر دو ترجمه پرتغالی برزیل و اروپایی را امتیاز دادند. تفاوت بین این دو امتیاز نشان‌دهنده شیوع پدیده‌های زبانی است که در یک واریته قابل قبول هستند اما در دیگری قابل قبول نیستند. ما متوجه شدیم که هم در پرتغالی و هم در چینی، رتبه‌دهندگان به‌طور میانگین، تقریباً دو خطای عمده‌تر در هر جمله را در ترجمه‌های ناهماهنگ نسبت به ترجمه‌های منطبق شناسایی کردند. این نشان می دهد که مجموعه داده ما واقعاً پدیده های خاص منطقه را ضبط می کند.

مطالب پیشنهادی  هوش مصنوعی گفتاری پیشرفته برای بیش از 100 زبان - وبلاگ هوش مصنوعی گوگل

در حالی که ارزیابی انسانی بهترین راه برای اطمینان از کیفیت مدل است، اغلب آهسته و گران است. بنابراین می‌خواستیم یک معیار خودکار موجود پیدا کنیم که محققان بتوانند از آن برای ارزیابی مدل‌های خود در معیار ما استفاده کنند و chrF، BLEU و BLEURT را در نظر بگیرند. با استفاده از ترجمه‌های چند مدل پایه که توسط ارزیاب‌های MQM ما نیز ارزیابی شده‌اند، متوجه شدیم که BLEURT بهترین همبستگی را با قضاوت‌های انسان دارد و قدرت آن همبستگی (0.65 ضریب همبستگی پیرسون، r) با سازگاری بین حاشیه نویس قابل مقایسه است (0.70 همبستگی درون کلاسی).

متریک ρ پیرسون
chrF 0.48
BLEU 0.58
بلوز 0.65

همبستگی بین معیارهای مختلف خودکار و قضاوت های انسانی در مورد کیفیت ترجمه در زیر مجموعه ای از FRMT. مقادیر بین -1 و 1 هستند. بالاتر بهتر است

عملکرد سیستم

ارزیابی ما تعداد انگشت شماری از مدل های اخیر را پوشش می دهد که قادر به کنترل چند شات هستند. بر اساس ارزیابی انسانی با MQM، روش‌های پایه همگی توانایی بومی‌سازی خروجی خود را برای پرتغالی نشان دادند، اما برای ماندارین، آنها عمدتاً در استفاده از دانش منطقه هدف برای تولید ترجمه‌های برتر سرزمین اصلی یا تایوان شکست خوردند.

مدل زبان اخیر گوگل، PaLM، به طور کلی در بین خطوط پایه که ما ارزیابی کردیم، بهترین رتبه را کسب کرد. به منظور تولید ترجمه‌های هدفمند منطقه‌ای با PALM، یک دستور آموزنده را به مدل وارد می‌کنیم و سپس متنی را از آن برای پر کردن جای خالی تولید می‌کنیم (نمونه زیر را ببینید).

    Translate the following texts from English to European Portuguese.
    English: [English example 1].
    European Portuguese: [correct translation 1].
    ...
    English: [input].
    European Portuguese: _____"

PALM با استفاده از یک مثال، نتایج قوی به دست آورد، و زمانی که به ده نمونه افزایش یافت، در پرتغالی دستاوردهای کیفی کمی داشت. این عملکرد زمانی قابل توجه است که توجه داشته باشیم که PalM به روشی بدون نظارت آموزش داده شده است. نتایج ما همچنین نشان می‌دهد که مدل‌های زبانی مانند PALM ممکن است در به خاطر سپردن واژه‌های خاص منطقه‌ای که برای ترجمه روان مورد نیاز است مهارت خاصی داشته باشند. با این حال، هنوز شکاف عملکرد قابل توجهی بین عملکرد PalM و انسان وجود دارد. برای جزئیات بیشتر به مقاله ما مراجعه کنید.

مطالب پیشنهادی  اعلام مسابقه ICDAR 2023 در زمینه تشخیص و تشخیص متن سلسله مراتبی – وبلاگ هوش مصنوعی گوگل

عملکرد MQM در سطل های داده با استفاده از ترجمه های انسانی و PALM. میله‌های ضخیم نشان‌دهنده مورد منطبق با منطقه است، جایی که رتبه‌دهندگان از هر منطقه ترجمه‌های هدف‌گذاری شده در منطقه خودشان را ارزیابی می‌کنند. میله‌های نازک درج شده نشان‌دهنده مورد ناهماهنگ منطقه است، جایی که رتبه‌دهندگان از هر منطقه ترجمه‌های هدف‌گذاری شده در منطقه دیگر را ارزیابی می‌کنند. ترجمه های انسانی در همه موارد پدیده های منطقه ای را نشان می دهند. ترجمه‌های PalM این کار را فقط برای همه سطل‌های پرتغالی و سطل واژگانی ماندارین انجام می‌دهند.

نتیجه

در آینده نزدیک، امیدواریم شاهد جهانی باشیم که در آن سیستم های تولید زبان، به ویژه ترجمه ماشینی، بتوانند از تمامی جوامع گوینده پشتیبانی کنند. ما می‌خواهیم با کاربران در جایی که هستند ملاقات کنیم و زبانی روان و مناسب برای منطقه یا منطقه آنها ایجاد کنیم. برای این منظور، ما مجموعه داده و معیار FRMT را منتشر کرده‌ایم، که محققان را قادر می‌سازد تا به راحتی عملکرد را برای مدل‌های MT آگاه از منطقه مقایسه کنند. انواع زبان در FRMT که از طریق مطالعات ارزیابی انسانی دقیق ما تأیید شده است، تفاوت های قابل توجهی دارند که خروجی های مدل های MT آگاه از منطقه باید منعکس شود. ما هیجان‌زده هستیم که ببینیم چگونه محققان از این معیار در توسعه مدل‌های جدید MT استفاده می‌کنند که از انواع زبان‌های کمتر ارائه‌شده و همه جوامع گوینده بهتر پشتیبانی می‌کنند، که منجر به بهبود برابری در فناوری‌های زبان طبیعی می‌شود.

سپاسگزاریها

ما از نویسندگان مقاله خود به خاطر همه مشارکت‌هایشان در این پروژه تشکر می‌کنیم: تیموتی دوزات، خاویر گارسیا، دن گرت، جیسون ریسا، اورهان فیرات و نوح کنستانت. برای بحث مفید و نظرات در مورد مقاله، ما از ژاکوب آیزنشتاین، نوح فیدل، مک‌داف هیوز و مینگفی لاو تشکر می‌کنیم. برای بازخورد ضروری در مورد تفاوت‌های زبانی خاص منطقه‌ای، از آندره آرائوجو، چونگ-چینگ چانگ، آندریا کونا، فیلیپه گونسالوس، نونو گوئریرو، مندی گوئو، لوئیس میراندا، ویتور رودریگز و لینتینگ ژو تشکر می‌کنیم. برای پشتیبانی لجستیکی در جمع‌آوری ترجمه‌ها و رتبه‌بندی‌های انسانی، از تیم Google Translate تشکر می‌کنیم. ما از مترجمان حرفه ای و ارزیاب های MQM برای نقششان در تولید مجموعه داده تشکر می کنیم. همچنین از تام اسمال برای ارائه انیمیشن در این پست تشکر می کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور