آموزش یک مدل زبان دو زبانه با نگاشت توکن ها در فضای کاراکتر مشترک

نویسندگان:

(1) آویاد رام، موسسه علوم داده، دانشگاه رایشمن، هرتزلیا، اسرائیل.

(2) Kfir Bar، موسسه علوم داده، دانشگاه رایشمن، هرتزلیا، اسرائیل.

چکیده و مقدمه

کار مرتبط

روش شناسی

تنظیمات آزمایشی

نتایج

نتیجه گیری و محدودیت ها

مراجع کتابشناختی

چکیده

ما یک مدل زبان عربی-عبری دوزبانه را با استفاده از یک نسخه نویسه‌گردانی شده از متون عربی به زبان عبری آموزش می‌دهیم تا اطمینان حاصل کنیم که هر دو زبان با یک خط نمایش داده می‌شوند. با توجه به شباهت‌های صرفی، ساختاری، و تعداد گسترده همزادهای مشترک بین عربی و عبری، ما عملکرد یک مدل زبانی را ارزیابی می‌کنیم که از خطی یکپارچه برای هر دو زبان استفاده می‌کند، در مورد ترجمه ماشینی که به دانش بین زبانی نیاز دارد. نتایج امیدوارکننده هستند: مدل ما از یک مدل متضاد که متون عربی را در خط عربی نگه می‌دارد بهتر عمل می‌کند و کارآمدی مرحله نویسه‌گردانی را نشان می‌دهد. با وجود آموزش روی مجموعه داده ای تقریباً 60٪ کوچکتر از سایر مدل های زبان موجود، به نظر می رسد مدل ما عملکرد قابل مقایسه ای را در ترجمه ماشینی در هر دو جهت ترجمه ارائه می دهد.

کلمات کلیدی: مدل زبان دوزبانه، آوانگاری، عربی، عبری

1. مقدمه

مدل های زبان از پیش آموزش دیده تبدیل به…

Source link