بهینه سازی اولویت مستقیم: مدل زبان شما مخفیانه یک مدل پاداش است

نویسندگان:

(1) رافائل رافایلو، دانشگاه استنفورد و مشارکت Equal. نویسندگان جوان بیشتری که قبلاً فهرست شده بودند.

(2) آرشیت شارما، دانشگاه استنفورد و مشارکت Equal. نویسندگان جوان بیشتری که قبلاً فهرست شده بودند.

(3) اریک میچل، دانشگاه استنفورد و مشارکت Equal. نویسندگان جوان بیشتری که قبلاً فهرست شده بودند.

(4) استفانو ارمون، CZ Biohub.

(5) کریستوفر دی. منینگ، دانشگاه استنفورد.

(6) چلسی فین، دانشگاه استنفورد.

چکیده و 1. مقدمه

2 کارهای مرتبط

3 مقدماتی

4 بهینه سازی اولویت مستقیم

5 تحلیل نظری DPO

6 آزمایش

7 بحث، قدردانی و مراجع

مشارکت های نویسنده

مشتقات ریاضی

الف.1 استخراج بهینه از هدف حداکثرسازی پاداش با محدودیت KL

الف.2 استخراج هدف DPO تحت مدل بردلی-تری

A.3 استخراج هدف DPO تحت مدل Plackett-Luce

الف.4 استخراج گرادیان هدف DPO و الف.5 اثبات لم 1 و 2

الف.6 اثبات قضیه 1

جزئیات و فراپارامترهای اجرای DPO B

C جزئیات بیشتر در مورد تنظیم آزمایشی و C.1 آزمایش احساسات IMDb و جزئیات پایه

C.2 GPT-4 برای محاسبات خلاصه سازی و نرخ پیروزی گفت و گو می گوید

ج.3 خط مبنا عدم احتمال

D نتایج تجربی اضافی

D.1 عملکرد بهترین نقطه پایه N برای انواع N…

Source link