بسیاری از افرادی که در مورد دستور زبان سؤالاتی دارند برای راهنمایی به جستجوی Google مراجعه می کنند. در حالی که ویژگی های موجود، مانند “آیا منظور شما” است، قبلاً اصلاحات ساده تایپی را انجام می دهد، تصحیح خطای دستوری پیچیده تر (GEC) فراتر از محدوده آنها است. چیزی که توسعه ویژگیهای جدید جستجوی Google را چالش برانگیز میکند این است که آنها باید دقت و یادآوری بالایی داشته باشند در حالی که نتایج را به سرعت تولید میکنند.
رویکرد مرسوم به GEC این است که آن را بهعنوان یک مشکل ترجمه در نظر بگیریم و از مدلهای ترانسفورماتور اتورگرسیو برای رمزگشایی پاسخ نشانه به نشانه، مشروط به توکنهای تولید شده قبلی استفاده کنیم. با این حال، اگرچه مدلهای ترانسفورماتور ثابت کردهاند که در GEC مؤثر هستند، اما کارایی خاصی ندارند زیرا به دلیل رمزگشایی اتورگرسیو نمیتوان نسل را موازی کرد. اغلب، تنها به چند تغییر نیاز است تا متن ورودی از نظر گرامری درست شود، بنابراین راه حل ممکن دیگر این است که GEC را به عنوان یک مشکل ویرایش متن در نظر بگیریم. اگر بتوانیم رمزگشای اتورگرسیو را فقط برای ایجاد تغییرات اجرا کنیم، این امر تأخیر مدل GEC را بطور قابل ملاحظه ای کاهش می دهد.
برای این منظور، در «EdiT5: ویرایش متن نیمه خود رگرسیون با شروع گرم T5»، منتشر شده در یافتههای EMNLP 2022، یک مدل ویرایش متن جدید را توصیف میکنیم که بر اساس معماری رمزگذار-رمزگشا T5 Transformer است. EdiT5 ویژگی جدید بررسی دستور زبان جستجوی Google را تقویت می کند که به شما امکان می دهد بررسی کنید که آیا یک عبارت یا جمله از نظر گرامری درست است یا خیر و در صورت نیاز اصلاحات را ارائه می دهد. بررسی گرامر زمانی نشان داده میشود که عبارت «بررسی دستور زبان» در یک عبارت جستجو گنجانده شود، و اگر مدل اصلی از اصلاح مطمئن باشد. علاوه بر این، برای برخی از جستارهایی که حاوی عبارت “بررسی دستور زبان” نیستند، زمانی که Search متوجه می شود که هدف احتمالی آن است، نشان داده می شود.
![]() |
معماری مدل
برای برنامههای با تأخیر کم در Google، مدلهای Transformer معمولاً بر روی TPU اجرا میشوند. این دستگاهها به دلیل واحدهای ضرب سریع ماتریس (MMU) برای انجام سریع ضربهای ماتریس بزرگ بهینهسازی شدهاند، بهعنوان مثال اجرای رمزگذار ترانسفورماتور روی صدها توکن تنها در چند میلیثانیه. در مقابل، رمزگشایی ترانسفورماتور از قابلیتهای TPU استفاده ضعیفی میکند، زیرا آن را مجبور میکند تنها یک توکن را در یک زمان پردازش کند. این امر رمزگشایی خودرگرسیون را به زمانبرترین بخش یک مدل GEC مبتنی بر ترجمه تبدیل میکند.
در رویکرد EdiT5، با در نظر گرفتن GEC به عنوان یک مشکل ویرایش متن، تعداد مراحل رمزگشایی را کاهش می دهیم. مدل ویرایش متن EdiT5 بر اساس معماری رمزگذار-رمزگشا T5 Transformer با چند تغییر اساسی است. با توجه به ورودی با خطاهای گرامری، مدل EdiT5 از یک رمزگذار استفاده می کند تا تعیین کند کدام نشانه های ورودی را حفظ یا حذف کند. نشانههای ورودی نگهداشتهشده یک خروجی پیشنویس را تشکیل میدهند که بهصورت اختیاری با استفاده از یک شبکه اشاره گر غیرخودرگرسیون مرتب میشود. در نهایت، یک رمزگشا، نشانه هایی را که در پیش نویس گم شده اند، خروجی می گیرد و از مکانیزم اشاره ای استفاده می کند تا نشان دهد که هر نشانه جدید باید در کجا قرار گیرد تا خروجی درستی از نظر گرامری ایجاد کند. رمزگشا فقط برای تولید نشانه هایی اجرا می شود که در پیش نویس گم شده اند، و در نتیجه، مراحل بسیار کمتری نسبت به روش ترجمه به GEC اجرا می شود.
برای کاهش بیشتر تأخیر رمزگشا، رسیور را به یک لایه کاهش می دهیم و با افزایش اندازه انکودر جبران می کنیم. به طور کلی، این تاخیر به طور قابل توجهی کاهش می یابد زیرا کار اضافی در رمزگذار به طور موثر موازی می شود.
![]() |
با توجه به یک ورودی با خطاهای گرامری (“حدس بزنید من متولد شدم”)، مدل EdiT5 از یک رمزگذار برای تعیین اینکه کدام نشانه های ورودی را نگه دارد (K) یا حذف کند (D)، از یک شبکه اشاره گر (اشاره گر) برای تغییر ترتیب نشانه های نگهداری شده استفاده می کند. یک رمزگشا برای درج هر نشانه جدیدی که برای تولید خروجی درست از نظر گرامری لازم است. |
ما مدل EdiT5 را در معیار تصحیح خطای دستوری عمومی BEA اعمال کردیم و اندازههای مختلف مدل را مقایسه کردیم. نتایج تجربی نشان میدهد که یک مدل بزرگ EdiT5 با پارامترهای 391M امتیاز F0.5 بالاتری را به دست میدهد، که دقت اصلاحات را اندازهگیری میکند، در حالی که سرعت 9 برابری را در مقایسه با مدل پایه T5 با پارامترهای 248M ارائه میکند. میانگین تأخیر مدل EdiT5 فقط 4.1 میلی ثانیه بود.
![]() |
عملکرد مدلهای T5 و EdiT5 با اندازههای مختلف در معیار BEA GEC عمومی در برابر میانگین تأخیر ترسیم شده است. در مقایسه با T5، EdiT5 تأخیر F0.5 بهتری را ارائه می دهد. توجه داشته باشید که محور x لگاریتمی است. |
داده های آموزشی بهبود یافته با مدل های زبان بزرگ
تحقیقات قبلی ما، و همچنین نتایج بالا، نشان میدهد که اندازه مدل نقش مهمی در ایجاد اصلاحات گرامری دقیق دارد. برای ترکیب مزایای مدلهای زبان بزرگ (LLM) و تأخیر کم EdiT5، از تکنیکی به نام تقطیر سخت استفاده میکنیم. ابتدا، یک معلم LLM را با استفاده از مجموعه داده های مشابهی که برای مدل دستور زبان Gboard استفاده می شود، آموزش می دهیم. سپس از مدل معلم برای تولید داده های آموزشی برای مدل EdiT5 دانش آموز استفاده می شود.
مجموعه های آموزشی برای مدل های گرامر شامل منبع غیر دستوری / هدف دستوری جفت جمله برخی از مجموعههای آموزشی دارای اهداف پر سر و صدایی هستند که حاوی اشتباهات گرامری، ترجمه غیر ضروری یا مصنوعات ناخواسته هستند. بنابراین، ما شبه هدفهای جدیدی را با مدل معلم ایجاد میکنیم تا دادههای آموزشی پاکتر و سازگارتر بهدست آوریم. سپس با استفاده از تکنیکی به نام الگوی معلم را با شبه اهداف دوباره آموزش می دهیم خود آموزی. در نهایت، متوجه شدیم که وقتی جمله منبع حاوی خطاهای زیادی باشد، معلم گاهی اوقات تنها بخشی از خطاها را تصحیح می کند. بنابراین، ما میتوانیم کیفیت اهداف شبه را با تغذیه آنها به معلم LLM برای بار دوم بهبود بخشیم، تکنیکی به نام پالایش تکراری.
![]() |
مراحل آموزش یک مدل معلم بزرگ برای تصحیح خطای دستوری (GEC). خودآموزی و اصلاح مکرر، جملات غیرضروری، مصنوعات و خطاهای دستوری ظاهر شده در اهداف اصلی را حذف می کند. |
همه اش را بگذار کنار هم
با استفاده از دادههای GEC بهبودیافته، ما دو مدل مبتنی بر EdiT5 را آموزش میدهیم: یک مدل تصحیح خطای دستوری و یک طبقهبندی گرامری. هنگامی که از ویژگی بررسی دستور زبان استفاده می شود، ابتدا پرس و جو را از طریق مدل تصحیح اجرا می کنیم و سپس بررسی می کنیم که آیا خروجی واقعاً با مدل طبقه بندی کننده درست است یا خیر. فقط پس از آن ما تصحیح را به کاربر نشان می دهیم.
دلیل داشتن یک مدل طبقهبندیکننده جداگانه، مبادله آسانتر بین دقت و فراخوان است. علاوه بر این، برای پرسشهای مبهم یا بیمعنی مدلی که بهترین تصحیح نامشخص است، طبقهبندیکننده خطر ارائه اصلاحات اشتباه یا گیجکننده را کاهش میدهد.
نتیجه
ما یک مدل تصحیح گرامری کارآمد را بر اساس معماری پیشرفته مدل EdiT5 ایجاد کردهایم. این مدل به کاربران این امکان را میدهد که دستوری بودن جستارهای خود را در جستجوی Google با قرار دادن عبارت «بررسی دستور زبان» در جستوجو بررسی کنند.
سپاسگزاریها
ما با سپاسگزاری از کمک های کلیدی سایر اعضای تیم، از جمله آکاش آر، آلیاکسی سورین، هارش شاه، جاناتان مالینسون، میتون کومار اس آر، سامر حسن، سباستین کراوس، و شیخار تاکور قدردانی می کنیم. ما همچنین میخواهیم از فلیکس استالبرگ، شانکار کومار و سایمون تانگ برای بحثها و نکات مفید تشکر کنیم.