مدل های زبان بزرگ مبتنی بر لنگر | HackerNoon

نویسندگان:

(1) Jianhui Pang، از دانشگاه ماکائو، و زمانی که Jianhui Pang و Fanghua Ye در آزمایشگاه هوش مصنوعی Tencent کارآموزی می کردند، کار انجام شد.[email protected])

(2) Fanghua Ye، دانشگاه کالج لندن، و زمانی که Jianhui Pang و Fanghua Ye در آزمایشگاه Tencent AI کارآموزی می کردند، کار انجام شد.[email protected])

(3) درک اف وانگ، دانشگاه ماکائو.

(4) Longyue Wang، Tencent AI Lab، و نویسنده مربوطه.

چکیده و 1 مقدمه

2 کارهای مرتبط

3 مدل زبان بزرگ مبتنی بر لنگر

3.1 پس زمینه

3.2 شبکه های خودتوجهی مبتنی بر لنگر

3.3 استنتاج مبتنی بر لنگر

4 آزمایش و 4.1 اجرای ما

4.2 داده ها و روش های آموزشی

4.3 ارزیابی

5 نتیجه

6 تجزیه و تحلیل

7 نتیجه گیری، محدودیت ها، بیانیه اخلاقی، و مراجع

نتایج تجربی بیشتر

B تنظیمات داده

چکیده

مدل‌های زبان بزرگ (LLM) عمدتاً از معماری‌های ترانسفورماتور فقط رمزگشا استفاده می‌کنند، که نیاز به حفظ اطلاعات کلید/مقدار برای نشانه‌های تاریخی برای ارائه اطلاعات متنی و اجتناب از محاسبات اضافی دارد. با این حال، اندازه قابل توجه و حجم پارامتر این LLM ها به حافظه GPU عظیم نیاز دارد. این تقاضای حافظه با طول متن ورودی افزایش می‌یابد که منجر به نیاز فوری به روش‌های کارآمدتر ذخیره‌سازی و پردازش اطلاعات می‌شود.

Source link