تنظیم دقیق LLaMA برای بازیابی متن چند مرحله ای

نویسندگان:

(1) Xueguang Ma، دانشکده علوم کامپیوتر دیوید R. Cheriton، دانشگاه واترلو.

(2) لیانگ وانگ، تحقیقات مایکروسافت.

(3) نان یانگ، تحقیقات مایکروسافت.

(4) فورو وی، تحقیقات مایکروسافت.

(5) جیمی لین، دانشکده علوم کامپیوتر دیوید آر. چریتون، دانشگاه واترلو.

چکیده و مقدمه

روش

آزمایش

مطالعه و تجزیه و تحلیل فرسایش

کار مرتبط

نتیجه گیری، قدردانی و مراجع

خلاصه

اثربخشی بازیابی متن چند مرحله‌ای از قبل از دوره مدل‌های زبانی از پیش آموزش‌دیده به‌طور کامل نشان داده شده است. با این حال، اکثر مطالعات موجود از مدل‌هایی استفاده می‌کنند که پیش از پیشرفت‌های اخیر در مدل‌های زبان بزرگ (LLM) هستند. این مطالعه به دنبال کشف پیشرفت های بالقوه ای است که LLM های پیشرفته می توانند به همراه داشته باشند. ما یک مطالعه جامع را انجام می دهیم و آخرین مدل LLaMA را هم به عنوان یک بازیابی متراکم (RepLLaMA) و هم به عنوان یک رتبه بندی مجدد نقطه ای (RankLLaMA) برای بازیابی متن و بازیابی اسناد با استفاده از مجموعه داده های MS MARCO تنظیم می کنیم. یافته‌های ما نشان می‌دهد که اثربخشی مدل‌های زبان بزرگ در واقع از مدل‌های کوچک‌تر پیشی می‌گیرد. علاوه بر این، از آنجایی که LLM ها ذاتاً می توانند زمینه های طولانی تری را مدیریت کنند، می توانند کل اسناد را به صورت کلی نشان دهند و نیاز به بخش بندی سنتی و استراتژی های ادغام را برطرف کنند.

Source link