چگونه مکانیسم‌های انتخاب مدل‌های فضای حالت را تغییر می‌دهند

نویسندگان:

(1) آلبرت گو، گروه یادگیری ماشین، دانشگاه کارنگی ملون و با مشارکت مساوی؛

(2) تری دائو، گروه علوم کامپیوتر، دانشگاه پرینستون و با مشارکت مساوی.

چکیده و 1 مقدمه

2 مدل فضایی حالت

3 مدل فضایی حالت انتخابی و 3.1 انگیزه: انتخاب به عنوان وسیله فشرده سازی

3.2 بهبود SSM با انتخاب

3.3 اجرای کارآمد SSM های انتخابی

3.4 معماری ساده شده SSM

3.5 ویژگی های مکانیسم های انتخاب

3.6 جزئیات مدل اضافی

4 ارزیابی تجربی و 4.1 وظایف ترکیبی

4.2 مدل سازی زبان

4.3 مدل سازی DNA

4.4 مدل سازی و تولید صدا

4.5 معیار سرعت و حافظه

4.6 مدل ابلیشن

5 بحث

6 نتیجه گیری و مراجع

بحث: مکانیسم انتخاب

ب کارهای مرتبط

C مکانیک SSM های انتخابی

D الگوریتم آگاه از سخت افزار برای SSM های انتخابی

E جزئیات تجربی و نتایج اضافی

3.2 بهبود SSM با انتخاب

یکی از روش‌های ترکیب مکانیزم انتخاب در مدل‌ها این است که اجازه دهید پارامترهای آن‌ها که بر تعاملات در طول دنباله تأثیر می‌گذارند (مثلاً دینامیک مکرر یک RNN یا هسته کانولوشن یک CNN) وابسته به ورودی باشند.

شکل 2: (سمت چپ) نسخه استاندارد کار کپی شامل فاصله ثابت بین عناصر ورودی و خروجی است و به راحتی توسط مدل های تغییرناپذیر زمان مانند تکرارهای خطی و پیچیدگی های جهانی حل می شود. (بالا سمت راست) وظیفه کپی انتخابی دارای فاصله تصادفی بین ورودی‌ها است و به مدل‌هایی با زمان متغیر نیاز دارد که می‌توانند به‌طور انتخابی ورودی‌ها را بسته به محتوایشان به خاطر بسپارند یا نادیده بگیرند. (پایین سمت راست) وظیفه Induction Heads نمونه ای از یادآوری انجمنی است که به بازیابی پاسخی بر اساس زمینه نیاز دارد، توانایی کلیدی برای LLM.شکل 2: (سمت چپ) نسخه استاندارد کار کپی شامل فاصله ثابت بین عناصر ورودی و خروجی است و به راحتی توسط مدل های تغییرناپذیر زمان مانند تکرارهای خطی و پیچیدگی های جهانی حل می شود. (بالا سمت راست) وظیفه کپی انتخابی دارای فاصله تصادفی بین ورودی‌ها است و به مدل‌هایی با زمان متغیر نیاز دارد که می‌توانند به‌طور انتخابی ورودی‌ها را بسته به محتوایشان به خاطر بسپارند یا نادیده بگیرند. (پایین سمت راست) وظیفه Induction Heads نمونه ای از یادآوری انجمنی است که نیازمند بازیابی پاسخی بر اساس زمینه است که یک توانایی کلیدی برای LLMها است.

الگوریتم های 1 و 2 مکانیسم اصلی انتخابی را که ما استفاده می کنیم را نشان می دهد. تفاوت اصلی صرفاً ایجاد چندین پارامتر ∆، B، C در ورودی، همراه با تغییرات مربوط به اشکال تانسور در سراسر است. به طور خاص، ما تأکید می کنیم که این پارامترها اکنون دارای یک بعد طول L هستند، به این معنی که مدل از زمان ثابت به زمان متغیر تغییر کرده است. (توجه داشته باشید که حاشیه نویسی شکل در بخش 2 توضیح داده شد). این امر معادل کانولوشن (3) را با پیامدهایی برای کارایی آن از دست می دهد که در ادامه مورد بحث قرار می گیرد.الگوریتم های 1 و 2 مکانیسم اصلی انتخابی را که ما استفاده می کنیم را نشان می دهد. تفاوت اصلی صرفاً ایجاد چندین پارامتر ∆، B، C در ورودی، همراه با تغییرات مربوط به اشکال تانسور در سراسر است. به طور خاص، ما تأکید می کنیم که این پارامترها اکنون دارای یک بعد طول L هستند، به این معنی که مدل از زمان ثابت به زمان متغیر تغییر کرده است. (توجه داشته باشید که حاشیه نویسی شکل در بخش 2 توضیح داده شد). این معادل بودن کانولوشن (3) را با پیامدهایی برای کارایی آن از دست می دهد که در ادامه مورد بحث قرار می گیرد.

این مقاله در arxiv تحت مجوز CC BY 4.0 DEED موجود است.

Source link