بررسی گرامر در مقیاس جستجوی گوگل – وبلاگ تحقیق گوگل

بررسی گرامر در مقیاس جستجوی گوگل – وبلاگ تحقیق گوگل

بسیاری از افرادی که در مورد دستور زبان سؤالاتی دارند برای راهنمایی به جستجوی Google مراجعه می کنند. در حالی که ویژگی های موجود، مانند “آیا منظور شما” است، قبلاً اصلاحات ساده تایپی را انجام می دهد، تصحیح خطای دستوری پیچیده تر (GEC) فراتر از محدوده آنها است. چیزی که توسعه ویژگی‌های جدید جستجوی Google را چالش برانگیز می‌کند این است که آنها باید دقت و یادآوری بالایی داشته باشند در حالی که نتایج را به سرعت تولید می‌کنند.

رویکرد مرسوم به GEC این است که آن را به‌عنوان یک مشکل ترجمه در نظر بگیریم و از مدل‌های ترانسفورماتور اتورگرسیو برای رمزگشایی پاسخ نشانه به نشانه، مشروط به توکن‌های تولید شده قبلی استفاده کنیم. با این حال، اگرچه مدل‌های ترانسفورماتور ثابت کرده‌اند که در GEC مؤثر هستند، اما کارایی خاصی ندارند زیرا به دلیل رمزگشایی اتورگرسیو نمی‌توان نسل را موازی کرد. اغلب، تنها به چند تغییر نیاز است تا متن ورودی از نظر گرامری درست شود، بنابراین راه حل ممکن دیگر این است که GEC را به عنوان یک مشکل ویرایش متن در نظر بگیریم. اگر بتوانیم رمزگشای اتورگرسیو را فقط برای ایجاد تغییرات اجرا کنیم، این امر تأخیر مدل GEC را بطور قابل ملاحظه ای کاهش می دهد.

برای این منظور، در «EdiT5: ویرایش متن نیمه خود رگرسیون با شروع گرم T5»، منتشر شده در یافته‌های EMNLP 2022، یک مدل ویرایش متن جدید را توصیف می‌کنیم که بر اساس معماری رمزگذار-رمزگشا T5 Transformer است. EdiT5 ویژگی جدید بررسی دستور زبان جستجوی Google را تقویت می کند که به شما امکان می دهد بررسی کنید که آیا یک عبارت یا جمله از نظر گرامری درست است یا خیر و در صورت نیاز اصلاحات را ارائه می دهد. بررسی گرامر زمانی نشان داده می‌شود که عبارت «بررسی دستور زبان» در یک عبارت جستجو گنجانده شود، و اگر مدل اصلی از اصلاح مطمئن باشد. علاوه بر این، برای برخی از جستارهایی که حاوی عبارت “بررسی دستور زبان” نیستند، زمانی که Search متوجه می شود که هدف احتمالی آن است، نشان داده می شود.

معماری مدل

برای برنامه‌های با تأخیر کم در Google، مدل‌های Transformer معمولاً بر روی TPU اجرا می‌شوند. این دستگاه‌ها به دلیل واحدهای ضرب سریع ماتریس (MMU) برای انجام سریع ضرب‌های ماتریس بزرگ بهینه‌سازی شده‌اند، به‌عنوان مثال اجرای رمزگذار ترانسفورماتور روی صدها توکن تنها در چند میلی‌ثانیه. در مقابل، رمزگشایی ترانسفورماتور از قابلیت‌های TPU استفاده ضعیفی می‌کند، زیرا آن را مجبور می‌کند تنها یک توکن را در یک زمان پردازش کند. این امر رمزگشایی خودرگرسیون را به زمان‌برترین بخش یک مدل GEC مبتنی بر ترجمه تبدیل می‌کند.

در رویکرد EdiT5، با در نظر گرفتن GEC به عنوان یک مشکل ویرایش متن، تعداد مراحل رمزگشایی را کاهش می دهیم. مدل ویرایش متن EdiT5 بر اساس معماری رمزگذار-رمزگشا T5 Transformer با چند تغییر اساسی است. با توجه به ورودی با خطاهای گرامری، مدل EdiT5 از یک رمزگذار استفاده می کند تا تعیین کند کدام نشانه های ورودی را حفظ یا حذف کند. نشانه‌های ورودی نگه‌داشته‌شده یک خروجی پیش‌نویس را تشکیل می‌دهند که به‌صورت اختیاری با استفاده از یک شبکه اشاره گر غیرخودرگرسیون مرتب می‌شود. در نهایت، یک رمزگشا، نشانه هایی را که در پیش نویس گم شده اند، خروجی می گیرد و از مکانیزم اشاره ای استفاده می کند تا نشان دهد که هر نشانه جدید باید در کجا قرار گیرد تا خروجی درستی از نظر گرامری ایجاد کند. رمزگشا فقط برای تولید نشانه هایی اجرا می شود که در پیش نویس گم شده اند، و در نتیجه، مراحل بسیار کمتری نسبت به روش ترجمه به GEC اجرا می شود.

برای کاهش بیشتر تأخیر رمزگشا، رسیور را به یک لایه کاهش می دهیم و با افزایش اندازه انکودر جبران می کنیم. به طور کلی، این تاخیر به طور قابل توجهی کاهش می یابد زیرا کار اضافی در رمزگذار به طور موثر موازی می شود.

با توجه به یک ورودی با خطاهای گرامری (“حدس بزنید من متولد شدم”)، مدل EdiT5 از یک رمزگذار برای تعیین اینکه کدام نشانه های ورودی را نگه دارد (K) یا حذف کند (D)، از یک شبکه اشاره گر (اشاره گر) برای تغییر ترتیب نشانه های نگهداری شده استفاده می کند. یک رمزگشا برای درج هر نشانه جدیدی که برای تولید خروجی درست از نظر گرامری لازم است.

ما مدل EdiT5 را در معیار تصحیح خطای دستوری عمومی BEA اعمال کردیم و اندازه‌های مختلف مدل را مقایسه کردیم. نتایج تجربی نشان می‌دهد که یک مدل بزرگ EdiT5 با پارامترهای 391M امتیاز F0.5 بالاتری را به دست می‌دهد، که دقت اصلاحات را اندازه‌گیری می‌کند، در حالی که سرعت 9 برابری را در مقایسه با مدل پایه T5 با پارامترهای 248M ارائه می‌کند. میانگین تأخیر مدل EdiT5 فقط 4.1 میلی ثانیه بود.

عملکرد مدل‌های T5 و EdiT5 با اندازه‌های مختلف در معیار BEA GEC عمومی در برابر میانگین تأخیر ترسیم شده است. در مقایسه با T5، EdiT5 تأخیر F0.5 بهتری را ارائه می دهد. توجه داشته باشید که محور x لگاریتمی است.

داده های آموزشی بهبود یافته با مدل های زبان بزرگ

تحقیقات قبلی ما، و همچنین نتایج بالا، نشان می‌دهد که اندازه مدل نقش مهمی در ایجاد اصلاحات گرامری دقیق دارد. برای ترکیب مزایای مدل‌های زبان بزرگ (LLM) و تأخیر کم EdiT5، از تکنیکی به نام تقطیر سخت استفاده می‌کنیم. ابتدا، یک معلم LLM را با استفاده از مجموعه داده های مشابهی که برای مدل دستور زبان Gboard استفاده می شود، آموزش می دهیم. سپس از مدل معلم برای تولید داده های آموزشی برای مدل EdiT5 دانش آموز استفاده می شود.

مجموعه های آموزشی برای مدل های گرامر شامل منبع غیر دستوری / هدف دستوری جفت جمله برخی از مجموعه‌های آموزشی دارای اهداف پر سر و صدایی هستند که حاوی اشتباهات گرامری، ترجمه غیر ضروری یا مصنوعات ناخواسته هستند. بنابراین، ما شبه هدف‌های جدیدی را با مدل معلم ایجاد می‌کنیم تا داده‌های آموزشی پاک‌تر و سازگارتر به‌دست آوریم. سپس با استفاده از تکنیکی به نام الگوی معلم را با شبه اهداف دوباره آموزش می دهیم خود آموزی. در نهایت، متوجه شدیم که وقتی جمله منبع حاوی خطاهای زیادی باشد، معلم گاهی اوقات تنها بخشی از خطاها را تصحیح می کند. بنابراین، ما می‌توانیم کیفیت اهداف شبه را با تغذیه آنها به معلم LLM برای بار دوم بهبود بخشیم، تکنیکی به نام پالایش تکراری.

مراحل آموزش یک مدل معلم بزرگ برای تصحیح خطای دستوری (GEC). خودآموزی و اصلاح مکرر، جملات غیرضروری، مصنوعات و خطاهای دستوری ظاهر شده در اهداف اصلی را حذف می کند.

همه اش را بگذار کنار هم

با استفاده از داده‌های GEC بهبودیافته، ما دو مدل مبتنی بر EdiT5 را آموزش می‌دهیم: یک مدل تصحیح خطای دستوری و یک طبقه‌بندی گرامری. هنگامی که از ویژگی بررسی دستور زبان استفاده می شود، ابتدا پرس و جو را از طریق مدل تصحیح اجرا می کنیم و سپس بررسی می کنیم که آیا خروجی واقعاً با مدل طبقه بندی کننده درست است یا خیر. فقط پس از آن ما تصحیح را به کاربر نشان می دهیم.

دلیل داشتن یک مدل طبقه‌بندی‌کننده جداگانه، مبادله آسان‌تر بین دقت و فراخوان است. علاوه بر این، برای پرسش‌های مبهم یا بی‌معنی مدلی که بهترین تصحیح نامشخص است، طبقه‌بندی‌کننده خطر ارائه اصلاحات اشتباه یا گیج‌کننده را کاهش می‌دهد.

نتیجه

ما یک مدل تصحیح گرامری کارآمد را بر اساس معماری پیشرفته مدل EdiT5 ایجاد کرده‌ایم. این مدل به کاربران این امکان را می‌دهد که دستوری بودن جستارهای خود را در جستجوی Google با قرار دادن عبارت «بررسی دستور زبان» در جست‌وجو بررسی کنند.

سپاسگزاریها

ما با سپاسگزاری از کمک های کلیدی سایر اعضای تیم، از جمله آکاش آر، آلیاکسی سورین، هارش شاه، جاناتان مالینسون، میتون کومار اس آر، سامر حسن، سباستین کراوس، و شیخار تاکور قدردانی می کنیم. ما همچنین می‌خواهیم از فلیکس استالبرگ، شانکار کومار و سایمون تانگ برای بحث‌ها و نکات مفید تشکر کنیم.