نقش RLHF در کاهش تعصب و بهبود عادلانه مدل هوش مصنوعی

مدل‌های زبانی بزرگ در همه صنایع در همه جا حاضر شده‌اند، به پزشکان در تشخیص بالینی کمک می‌کنند، به کارشناسان امنیت سایبری کمک می‌کنند قوانین پیچیده را درک کنند، و کسب‌وکارها را قادر می‌سازد تا به طور موثر با مشتریان درگیر شوند و مواد بازاریابی قانع‌کننده را تهیه کنند.

با این حال، با افزایش پیچیدگی و قابلیت این مدل‌ها، نگرانی‌ها در مورد تعصب، انصاف و ایمنی نیز افزایش می‌یابد. مدل‌های مغرضانه می‌توانند بر تصمیم‌گیری تأثیر بگذارند و چالش‌های مهمی در تضمین عدالت ایجاد کنند.

RLHF یا یادگیری تقویتی از بازخورد انسانی، رویکردی نوآورانه برای کاهش تعصب در LLMها است. RLHF شامل تراز کردن رفتار مدل برای تطابق بهتر با ارزش‌ها و ترجیحات انسانی با ترکیب ورودی انسانی در فرآیند آموزش برای کاهش تعصب و بهبود انصاف و ایمنی در LLM است. این مقاله به بررسی نقش حیاتی RLHF در کاهش تعصب مدل هوش مصنوعی و افزایش کارایی و انصاف مدل می‌پردازد.

مسئله تعصب در LLM

تعصب در مدل‌های زبانی بزرگ عمدتاً از داده‌هایی نشأت می‌گیرد که بر اساس آن‌ها آموزش دیده‌اند. این مدل‌ها به داده‌های آموزشی گسترده‌ای نیاز دارند که از اینترنت، رسانه‌های اجتماعی و کتاب‌ها جمع‌آوری شده‌اند، جایی که سوگیری فراگیر است. به عنوان مثال، GPT-4 طبق گزارش ها بر روی تقریباً 13 تریلیون نشانه آموزش داده شده است که شامل تقریباً 10 تریلیون کلمه است. منابع رایج سوگیری در LLMها عبارتند از:

  • داده های آموزشی:

Source link