دانشمندان از ترجیحات انسانی برای آموزش عوامل هوش مصنوعی 30 برابر سریعتر استفاده می کنند

  1. چکیده و مقدمه
  2. کار مرتبط
  3. تعریف مشکل
  4. روش
  5. آزمایشات
  6. نتیجه گیری و مراجع

الف. ضمیمه

الف.1. درخواست های کامل و A.2 جزئیات ICPL

الف. 3 جزئیات پایه

الف.4 جزئیات محیطی

الف.5 اولویت انسانی پروکسی

A.6 ترجیح انسان در حلقه

5 آزمایش

در این بخش، ما دو مجموعه آزمایش را برای ارزیابی اثربخشی روش خود انجام دادیم: یکی با استفاده از ترجیحات انسانی پروکسی و دیگری با استفاده از ترجیحات واقعی انسان.

  1. ترجیحات انسانی پروکسی: در این آزمایش، از پاداش های طراحی شده توسط انسان، که از EUREKA (Ma et al., 2023) گرفته شده است، به عنوان نماینده ترجیحات انسانی استفاده شد. به طور خاص، اگر پاداش حقیقت پایه R1 R2، نمونه 1 بر نمونه 2 ترجیح داده می شود. این روش ارزیابی سریع و کمی رویکرد ما را امکان پذیر می کند. این مربوط به یک مورد بدون سر و صدا است که احتمالا آسان تر از آزمایش های انسانی است. اگر ICPL در اینجا ضعیف عمل کند، بعید است در آزمایشات انسانی کار کند. نکته مهم این است که پاداش‌های طراحی شده توسط انسان فقط برای خودکارسازی انتخاب نمونه‌ها استفاده می‌شوند و در درخواست‌های ارسال شده به LLM لحاظ نشده‌اند. LLM هرگز شکل کارکردی پاداش های حقیقت زمینی را مشاهده نمی کند و هرگز ارزشی از آنها دریافت نمی کند. از آنجایی که ترجیحات انسانی پروکسی عاری از سر و صدا هستند، آنها یک مقایسه قابل اعتماد برای ارزیابی رویکرد ما ارائه می دهند.

Source link