مدلهای زبانی بزرگ در همه صنایع در همه جا حاضر شدهاند، به پزشکان در تشخیص بالینی کمک میکنند، به کارشناسان امنیت سایبری کمک میکنند قوانین پیچیده را درک کنند، و کسبوکارها را قادر میسازد تا به طور موثر با مشتریان درگیر شوند و مواد بازاریابی قانعکننده را تهیه کنند.
با این حال، با افزایش پیچیدگی و قابلیت این مدلها، نگرانیها در مورد تعصب، انصاف و ایمنی نیز افزایش مییابد. مدلهای مغرضانه میتوانند بر تصمیمگیری تأثیر بگذارند و چالشهای مهمی در تضمین عدالت ایجاد کنند.
RLHF یا یادگیری تقویتی از بازخورد انسانی، رویکردی نوآورانه برای کاهش تعصب در LLMها است. RLHF شامل تراز کردن رفتار مدل برای تطابق بهتر با ارزشها و ترجیحات انسانی با ترکیب ورودی انسانی در فرآیند آموزش برای کاهش تعصب و بهبود انصاف و ایمنی در LLM است. این مقاله به بررسی نقش حیاتی RLHF در کاهش تعصب مدل هوش مصنوعی و افزایش کارایی و انصاف مدل میپردازد.
مسئله تعصب در LLM
تعصب در مدلهای زبانی بزرگ عمدتاً از دادههایی نشأت میگیرد که بر اساس آنها آموزش دیدهاند. این مدلها به دادههای آموزشی گستردهای نیاز دارند که از اینترنت، رسانههای اجتماعی و کتابها جمعآوری شدهاند، جایی که سوگیری فراگیر است. به عنوان مثال، GPT-4 طبق گزارش ها بر روی تقریباً 13 تریلیون نشانه آموزش داده شده است که شامل تقریباً 10 تریلیون کلمه است. منابع رایج سوگیری در LLMها عبارتند از:
- داده های آموزشی: …