چگونه نویسه‌نویسی ترجمه ماشینی را تقویت می‌کند: رویکرد HeArBERT

نویسندگان:

(1) آویاد رام، موسسه علوم داده، دانشگاه رایشمن، هرتزلیا، اسرائیل.

(2) Kfir Bar، موسسه علوم داده، دانشگاه رایشمن، هرتزلیا، اسرائیل.

چکیده و مقدمه

کار مرتبط

روش شناسی

تنظیمات آزمایشی

نتایج

نتیجه گیری و محدودیت ها

مراجع کتابشناختی

3. روش شناسی

ما با پیش آموزش یک مدل زبان جدید با استفاده از متون نوشته شده به دو زبان عربی و عبری شروع می کنیم. این مدل که HeArBERT نام دارد، متعاقباً برای بهبود عملکرد در ترجمه ماشینی بین عربی و عبری تنظیم شده است.

برای پیش‌آموزش، از نسخه‌های عربی حذف‌شده (حدود 3 میلیارد کلمه) و عبری (حدود 1 میلیارد کلمه) مجموعه داده‌های OSCAR استفاده می‌کنیم (Ortiz Suárez et al., 2020). در این کار، هدف ما اندازه‌گیری تأثیر عادی‌سازی همه متون به یک اسکریپت مشترک است، به‌طوری‌که می‌توان همزادگان را تحت یک نمایش نشانه‌ای یکسان کرد. بنابراین، ما متون عربی را به عنوان یک مرحله پیش پردازش برای آموزش و آزمایش به خط عبری ترجمه می کنیم. روش نویسه‌گردانی ما بر اساس بیشتر دستورالعمل‌های منتشر شده توسط آکادمی زبان عبری طراحی شده است که نقشه‌برداری عبری را برای هر حرف عربی تعریف کرده است.[4]، و نقشه برداری ارائه شده در (ترنر و همکاران، 2020). فقط حروف عربی به معادل های عبری خود تبدیل می شوند، در حالی که …

Source link