نویسندگان:
(1) آویاد رام، موسسه علوم داده، دانشگاه رایشمن، هرتزلیا، اسرائیل.
(2) Kfir Bar، موسسه علوم داده، دانشگاه رایشمن، هرتزلیا، اسرائیل.
جدول پیوندها
چکیده و مقدمه
کار مرتبط
روش شناسی
تنظیمات آزمایشی
نتایج
نتیجه گیری و محدودیت ها
مراجع کتابشناختی
3. روش شناسی
ما با پیش آموزش یک مدل زبان جدید با استفاده از متون نوشته شده به دو زبان عربی و عبری شروع می کنیم. این مدل که HeArBERT نام دارد، متعاقباً برای بهبود عملکرد در ترجمه ماشینی بین عربی و عبری تنظیم شده است.
برای پیشآموزش، از نسخههای عربی حذفشده (حدود 3 میلیارد کلمه) و عبری (حدود 1 میلیارد کلمه) مجموعه دادههای OSCAR استفاده میکنیم (Ortiz Suárez et al., 2020). در این کار، هدف ما اندازهگیری تأثیر عادیسازی همه متون به یک اسکریپت مشترک است، بهطوریکه میتوان همزادگان را تحت یک نمایش نشانهای یکسان کرد. بنابراین، ما متون عربی را به عنوان یک مرحله پیش پردازش برای آموزش و آزمایش به خط عبری ترجمه می کنیم. روش نویسهگردانی ما بر اساس بیشتر دستورالعملهای منتشر شده توسط آکادمی زبان عبری طراحی شده است که نقشهبرداری عبری را برای هر حرف عربی تعریف کرده است.[4]، و نقشه برداری ارائه شده در (ترنر و همکاران، 2020). فقط حروف عربی به معادل های عبری خود تبدیل می شوند، در حالی که …