از آنجایی که هوش مصنوعی (AI) همچنان در جنبه های مختلف زندگی ما نفوذ می کند، اطمینان از اینکه این سیستم ها به طور عادلانه و بدون تعصب کار می کنند به یک نگرانی حیاتی تبدیل شده است. یادگیری تقویتی از بازخورد انسانی (RLHF) رویکردی است که به مدل های هوش مصنوعی اجازه می دهد تا با یادگیری از بازخورد ارائه شده توسط انسان، بهتر با ارزش های انسانی هماهنگ شوند. با این حال، این رویکرد بدون چالش نیست – به ویژه هنگامی که صحبت از پتانسیل سوگیری می شود. این مقاله راههای مختلفی را برای معرفی سوگیری در RLHF، همراه با استراتژیهایی برای کاهش این خطرات بررسی میکند.
احتمال سوگیری در بازخورد انسانی
قضاوت های ذهنی
ارزیاب های انسانی در هسته RLHF قرار دارند و بازخوردی را ارائه می دهند که مدل برای تنظیم رفتار خود از آن استفاده می کند. با این حال، این بازخورد ذاتا ذهنی است. هر ارزیاب مجموعه ای از دیدگاه های فرهنگی، تجربیات شخصی و سوگیری های خود را به میز می آورد. به عنوان مثال، دو ارزیاب با پیشینههای فرهنگی مختلف ممکن است بازخورد متفاوتی را در مورد خروجی یک مدل ارائه دهند که منجر به ناسازگاریها میشود. اگر به دقت مدیریت نشود، این قضاوتهای ذهنی میتوانند سوگیریهایی را وارد مدل کنند و باعث شوند که دیدگاههای خاص ارزیابها به جای دیدگاه متعادلتری منعکس شود.
بازخورد متناقض
انسان ها همیشه در کارهایشان ثابت نیستند…