کارهای مرتبط بر روی تنظیم دقیق LLaMA برای بازیابی متن چند مرحله ای

نویسندگان:

(1) Xueguang Ma، دانشکده علوم کامپیوتر دیوید R. Cheriton، دانشگاه واترلو.

(2) لیانگ وانگ، تحقیقات مایکروسافت.

(3) نان یانگ، تحقیقات مایکروسافت.

(4) فورو وی، تحقیقات مایکروسافت.

(5) جیمی لین، دانشکده علوم کامپیوتر دیوید آر. چریتون، دانشگاه واترلو.

چکیده و مقدمه

روش

آزمایش

مطالعه و تجزیه و تحلیل فرسایش

کار مرتبط

نتیجه گیری، قدردانی و مراجع

5.1 مدل های زبان بزرگ

از زمان ظهور BERT، مدل‌های زبانی از پیش آموزش‌دیده بر اساس معماری ترانسفورماتور (واسوانی و همکاران، 2017) قابلیت‌های چشمگیری را در هنگام تنظیم دقیق وظایف مختلف پایین دستی از زمان ظهور BERT نشان داده‌اند (Devlin et al., 2019). بسته به معماری آنها، ترانسفورماتورهای از پیش آموزش دیده را می توان به سه دسته طبقه بندی کرد: مدل های فقط رمزگذار (Devlin et al., 2019; Liu et al., 2019; Conneau et al., 2020)، مدل های رمزگذار – رمزگشا (Raffel et al. همکاران، 2020؛ لوئیس و همکاران، 2020a)، و مدل‌های فقط رمزگشا (Radford et al., 2018). مدل‌های فقط رمزگشا مانند GPT/GPT-2 به دلیل سادگی از نظر معماری مدل و روش‌های پیش‌آموزشی مورد ستایش قرار گرفته‌اند (رادفورد و همکاران، 2018، 2019).

تحقیقات اخیر نشان داده است که افزایش مقیاس LLM با از قبل آموزش مدل های بزرگتر فقط رمزگشا با استفاده از پیکره های بزرگتر و با کیفیت بالاتر می تواند به طور قابل توجهی مدل را بهبود بخشد.

Source link