ساده سازی بلوک های ترانسفورماتور: جزئیات پیاده سازی

نویسندگان:

(1) بابی هی، دپارتمان علوم کامپیوتر، ETH زوریخ (مکاتبه با: [email protected].)؛

(2) توماس هافمن، گروه علوم کامپیوتر، ETH زوریخ.

چکیده و مقدمه

کار مرتبط

مقدماتی

ساده سازی بلوک های ترانسفورماتور

تجزیه و تحلیل تجربی بیشتر

بحث، بیانیه تکرارپذیری، قدردانی و مراجع

دوگانگی بین به روز رسانی های کم وزن باقیمانده و محدود کننده در لایه های خطی

طرح بندی بلوک B

C آزمایش های اضافی

D جزئیات پیاده سازی

D جزئیات پیاده سازی

در این بخش ما جزئیات پیاده سازی باقی مانده را اضافه می کنیم که در مقاله اصلی مورد بحث قرار نگرفته اند. ما جزئیات پیاده‌سازی خود را به دو بخش تقسیم می‌کنیم، یکی برای کار پیش‌بینی رمز بعدی در CodeParrot و دیگری برای آزمایش‌های مدل‌سازی زبان ماسک‌دار Crammed BERT (Geiping & Goldstein، 2023) که روی مجموعه داده Pile از قبل آموزش داده شده است (Gao et al., 2020). و با معیار GLUE پایین دست تنظیم شده است (وانگ و همکاران، 2019). برای جلوگیری از تکرار، هر گونه جزئیاتی که در یک زیربخش ذکر شده است اما در دیگری ذکر نشده است، بین هر دو بخش به اشتراک گذاشته می شود. تمام نتایج زمان اجرا در CodeParrot روی یک واحد پردازش گرافیکی A5000 اجرا شد.

D.1 پیش بینی رمز بعدی CODEPARROT

همانطور که گفته شد، بسیاری از تنظیمات ما از https://huggingface.co/learn/…

Source link