چگونه LLM ها از متن بدون حافظه سنتی یاد می گیرند

نویسندگان:

(1) Raphaël Millière ، گروه فلسفه ، دانشگاه Macquarie ([email protected]) ؛

(2) کامرون باکنر ، گروه فلسفه ، دانشگاه هیوستون ([email protected]).

چکیده و 1 مقدمه

2. آغازگر در LLMS

2.1 مبانی تاریخی

2.2 LLM های مبتنی بر ترانسفورماتور

3. رابط با موضوعات فلسفی کلاسیک

3.1 ترکیب

3.2 طبیعت گرایی و دستیابی به زبان

3.3 درک زبان و زمین

3.4 مدل های جهانی

3.5 انتقال دانش فرهنگی و داربست زبانی

4. نتیجه گیری ، واژه نامه و منابع

2.2 LLM های مبتنی بر ترانسفورماتور

یکی از مهمترین مزایای معماری ترانسفورماتور این است که تمام کلمات موجود در دنباله ورودی به طور موازی و نه متوالی ، بر خلاف RNN ها ، LSTM ها و GRU ها پردازش می شوند.[6] این اصلاحات معماری نه تنها باعث افزایش بهره وری آموزش می شود ، بلکه توانایی مدل در رسیدگی به توالی های طولانی متن را نیز بهبود می بخشد ، بنابراین مقیاس و پیچیدگی کارهای زبانی را که می تواند انجام شود افزایش می دهد.

در قلب مدل ترانسفورماتور مکانیسم معروف به خود استقبال قرار دارد (شکل 2). به عبارت ساده ، خود توجه به این مدل اجازه می دهد تا هنگام پردازش هر کلمه جداگانه موجود در آن ، اهمیت بخش های مختلف یک دنباله را وزن کند …

Source link