نویسندگان:
(1) Jianhui Pang، از دانشگاه ماکائو، و زمانی که Jianhui Pang و Fanghua Ye در آزمایشگاه هوش مصنوعی Tencent کارآموزی می کردند، کار انجام شد.[email protected])
(2) Fanghua Ye، دانشگاه کالج لندن، و زمانی که Jianhui Pang و Fanghua Ye در آزمایشگاه Tencent AI کارآموزی می کردند، کار انجام شد.[email protected])
(3) درک اف وانگ، دانشگاه ماکائو.
(4) Longyue Wang، Tencent AI Lab، و نویسنده مربوطه.
جدول پیوندها
چکیده و 1 مقدمه
2 کارهای مرتبط
3 مدل زبان بزرگ مبتنی بر لنگر
3.1 پس زمینه
3.2 شبکه های خودتوجهی مبتنی بر لنگر
3.3 استنتاج مبتنی بر لنگر
4 آزمایش و 4.1 اجرای ما
4.2 داده ها و روش های آموزشی
4.3 ارزیابی
5 نتیجه
6 تجزیه و تحلیل
7 نتیجه گیری، محدودیت ها، بیانیه اخلاقی، و مراجع
نتایج تجربی بیشتر
B تنظیمات داده
چکیده
مدلهای زبان بزرگ (LLM) عمدتاً از معماریهای ترانسفورماتور فقط رمزگشا استفاده میکنند، که نیاز به حفظ اطلاعات کلید/مقدار برای نشانههای تاریخی برای ارائه اطلاعات متنی و اجتناب از محاسبات اضافی دارد. با این حال، اندازه قابل توجه و حجم پارامتر این LLM ها به حافظه GPU عظیم نیاز دارد. این تقاضای حافظه با طول متن ورودی افزایش مییابد که منجر به نیاز فوری به روشهای کارآمدتر ذخیرهسازی و پردازش اطلاعات میشود.