Zephyr: Direct Distillation of LM Alignment: Abstract and Introduction

نویسندگان:

(1) لوئیس تونستال، مشارکت برابر و تیم H4 (مفید، صادق، بی ضرر، هوگی) (ایمیل: [email protected])

(2) ادوارد بیچینگ، مشارکت برابر و تیم H4 (مفید، صادق، بی ضرر، بغل).

(3) ناتان لمبرت، تیم H4 (مفید، صادق، بی ضرر، بغل).

(4) نازنین رجانی، تیم H4 (مفید، صادق، بی ضرر، بغل).

(5) کاشف رسول، تیم H4 (مفید، صادق، بی ضرر، بغل).

(6) یونس بلکادا، تیم H4 (مفید، صادق، بی ضرر، بغل).

(7) Shengyi Huang، تیم H4 (مفید، صادق، بی ضرر، Huggy).

(8) لئاندرو فون ورا، تیم H4 (مفید، صادق، بی ضرر، بغل).

(9) کلمنتین فوریر، تیم H4 (مفید، صادق، بی ضرر، بغل).

(10) ناتان حبیب، تیم H4 (مفید، صادق، بی ضرر، بغل).

(11) ناتان سارازین، تیم H4 (مفید، صادق، بی ضرر، بغل).

(12) عمر سانسویرو، تیم H4 (مفید، صادق، بی ضرر، بغل).

(13) الکساندر ام. راش، تیم H4 (مفید، صادق، بی ضرر، بغل).

(14) توماس ولف، تیم H4 (مفید، صادق، بی ضرر، بغل).

خلاصه

هدف ما تولید یک مدل زبان کوچکتر است که مطابق با هدف کاربر باشد. تحقیقات قبلی نشان داده است که استفاده از تنظیم دقیق تحت نظارت مقطر (dSFT) در مدل‌های بزرگتر به طور قابل توجهی دقت کار را بهبود می‌بخشد. با این حال،…

Source link