آیا هوش مصنوعی می تواند بلوف های خود را بخواند؟

توهمات – آن پاسخ‌های غیرمنتظره، تخیلی یا نادرست – یکی از مسائل کلیدی است که از پذیرش گسترده‌تر مدل‌های زبانی بزرگ (LLM) در محصولات جلوگیری می‌کند.

متأسفانه (برای شرکت های بزرگ)، صرف بودجه بیشتر برای مشکل بدون ایجاد تغییرات اساسی، آن را از بین نمی برد:

https://x.com/petergyang/status/1793480607198323196https://x.com/petergyang/status/1793480607198323196

مهمتر از آن، اگر ما بر ارزش آنی محصول تمرکز نکنیم، بلکه بر تأثیر مثبت بلندمدت آن تمرکز کنیم که دوست داریم این فناوری داشته باشد – ما دارند برای ثابت نگه داشتن خروجی های مدل در واقعیت (تصور کنید پزشک یا وکیل آینده شما باشد)

اما چرا LLM ها در وهله اول خروجی های نادرستی تولید می کنند؟ چرا آنها شکست را نمی پذیرند و به سادگی نمی گویند “نمی دانم؟”

LLM Alignment 101

LLM های رو به کاربر معمولاً رابطی شبیه به چت دارند و روی انبوهی از متن از قبل آموزش داده شده اند.

با این حال، اگر سعی کنید با یک مدل از قبل آموزش دیده گفتگو کنید – از آن لذت نخواهید برد:

GPT2 ارائه شده از طریق Hugging Face Inference API دچار یک شکست عصبی شده استGPT2 ارائه شده از طریق Hugging Face Inference API در حال شکست عصبی است

برای بهبود آن، OpenAI اولین کسی بود که روشی را به کار برد که آن را یادگیری تقویتی از بازخورد انسانی (RLHF) نامیدند.

نمودار RLHF از https://openai.com/index/instruction-following/نمودار RLHF از https://openai.com/index/instruction-following/

این با تغییر وزن های LLM برای به حداکثر رساندن پاداش مورد انتظاری که از ارزیاب های انسانی دریافت می کند، کار می کند، که به آنها دستور داده شده است که از پاسخ های مفید، صادقانه و بی ضرر استفاده کنند.

اما کار انسان کند و گران است (حداقل در مقایسه با کامپیوترها)، بنابراین…

Source link