نویسندگان:
(1) رافائل رافایلو، دانشگاه استنفورد و مشارکت Equal. نویسندگان جوان بیشتری که قبلاً فهرست شده بودند.
(2) آرشیت شارما، دانشگاه استنفورد و مشارکت Equal. نویسندگان جوان بیشتری که قبلاً فهرست شده بودند.
(3) اریک میچل، دانشگاه استنفورد و مشارکت Equal. نویسندگان جوان بیشتری که قبلاً فهرست شده بودند.
(4) استفانو ارمون، CZ Biohub.
(5) کریستوفر دی. منینگ، دانشگاه استنفورد.
(6) چلسی فین، دانشگاه استنفورد.
جدول پیوندها
چکیده و 1. مقدمه
2 کارهای مرتبط
3 مقدماتی
4 بهینه سازی اولویت مستقیم
5 تحلیل نظری DPO
6 آزمایش
7 بحث، قدردانی و مراجع
مشارکت های نویسنده
مشتقات ریاضی
الف.1 استخراج بهینه از هدف حداکثرسازی پاداش با محدودیت KL
الف.2 استخراج هدف DPO تحت مدل بردلی-تری
A.3 استخراج هدف DPO تحت مدل Plackett-Luce
الف.4 استخراج گرادیان هدف DPO و الف.5 اثبات لم 1 و 2
الف.6 اثبات قضیه 1
جزئیات و فراپارامترهای اجرای DPO B
C جزئیات بیشتر در مورد تنظیم آزمایشی و C.1 آزمایش احساسات IMDb و جزئیات پایه
C.2 GPT-4 برای محاسبات خلاصه سازی و نرخ پیروزی گفت و گو می گوید
ج.3 خط مبنا عدم احتمال
D نتایج تجربی اضافی
D.1 عملکرد بهترین نقطه پایه N برای انواع N…