در چشم انداز به سرعت در حال تکامل هوش مصنوعی، مدل های زبان بزرگ (LLM) شیوه تعامل ما با ماشین ها را متحول کرده اند و مرزهای درک زبان طبیعی و نسل را به ارتفاعات بی سابقه ای سوق داده اند. با این حال، جهش به سمت برنامههای تصمیمگیری پرمخاطره همچنان به دلیل عدم قطعیت ذاتی پیشبینیهای مدل، شکاف بسیار گستردهای دارد. LLMهای سنتی به صورت بازگشتی پاسخها را تولید میکنند، اما فاقد مکانیزم ذاتی برای اختصاص امتیاز اطمینان به این پاسخها هستند. اگرچه میتوان با جمعبندی احتمالات نشانههای فردی در یک دنباله، یک امتیاز اطمینان به دست آورد، رویکردهای سنتی معمولاً در تشخیص قابل اعتماد بین پاسخهای صحیح و نادرست کوتاهی میکنند. اما اگر LLM ها بتوانند اعتماد خود را بسنجند و فقط زمانی که مطمئن باشند پیش بینی کنند چه؟
هدف پیشبینی انتخابی این است که LLMها را قادر میسازد تا پاسخی را همراه با امتیاز انتخابی ارائه دهند، که احتمال درستی پاسخ را نشان میدهد. با پیشبینی انتخابی، میتوان قابلیت اطمینان LLMهای مستقر در برنامههای مختلف را بهتر درک کرد. تحقیقات قبلی، مانند عدم قطعیت معنایی و خود ارزیابی، تلاش کرده است تا پیشبینی انتخابی را در LLMs فعال کند. یک رویکرد معمولی استفاده از دستورهای اکتشافی مانند “آیا پاسخ پیشنهادی درست است یا نادرست است؟” برای ایجاد خودارزیابی در LLM. با این حال، این رویکرد ممکن است در وظایف چالش برانگیز پاسخگویی به سوال (QA) به خوبی کار نکند.
مدل OPT-2.7B به یک سوال از مجموعه داده TriviaQA پاسخ اشتباه می دهد: “کدام ویتامین به تنظیم لخته شدن خون کمک می کند؟” با “ویتامین C”. بدون پیشبینی انتخابی، LLMها ممکن است پاسخ اشتباهی را ارائه دهند که در این مورد میتواند باعث شود کاربران ویتامین اشتباه مصرف کنند. با پیشبینی انتخابی، LLMها یک پاسخ همراه با یک امتیاز انتخاب را ارائه میدهند. اگر امتیاز انتخاب کم باشد (0.1)، LLM ها بیشتر خروجی “نمی دانم!” به کاربران هشدار دهد که به آن اعتماد نکنند یا آن را با استفاده از منابع دیگر تأیید کنند. |
در «انطباق با خود ارزیابی برای بهبود پیشبینی انتخابی در LLM»، که در یافتههای EMNLP 2023 ارائه شد، ASPIRE را معرفی میکنیم – یک چارچوب جدید که بهدقت برای افزایش قابلیتهای پیشبینی انتخابی LLM طراحی شده است. ASPIRE LLM ها را در وظایف QA از طریق تنظیم دقیق پارامترهای کارآمد تنظیم می کند و آنها را آموزش می دهد تا ارزیابی کنند که آیا پاسخ های تولید شده آنها درست است یا خیر. ASPIRE به LLM ها اجازه می دهد تا یک پاسخ همراه با نمره اطمینان برای آن پاسخ ارائه دهند. نتایج تجربی ما نشان میدهد که ASPIRE به طور قابلتوجهی از روشهای پیشبینی انتخابی پیشرفته در انواع مجموعههای داده QA، مانند معیار CoQA، بهتر عمل میکند.
مکانیک ASPIRE
تصور کنید به یک LLM آموزش دهید که نه تنها به سؤالات پاسخ دهد، بلکه آن پاسخ ها را نیز ارزیابی کند – شبیه به دانش آموزی که پاسخ های خود را در پشت کتاب درسی تأیید می کند. این ماهیت ASPIRE است که شامل سه مرحله است: (1) تنظیم ویژه کار، (2) نمونه گیری پاسخ و (3) یادگیری خودارزیابی.
تنظیم کار خاص: ASPIRE برای آموزش پارامترهای سازگار (θپ) در حین انجماد LLM. با توجه به یک مجموعه داده آموزشی برای یک کار مولد، LLM از قبل آموزش دیده را برای بهبود عملکرد پیش بینی آن به خوبی تنظیم می کند. برای این منظور، تکنیکهای تنظیم کارآمد پارامتر (مانند تنظیم سریع نرمافزار و LoRA) ممکن است برای تطبیق LLM از پیش آموزشدیده بر روی کار، با توجه به اثربخشی آنها در دستیابی به تعمیم قوی با مقادیر کمی از دادههای وظیفه هدف، استفاده شود. به طور خاص، پارامترهای LLM (θ) پارامترهای منجمد و قابل انطباق هستند (θپ) برای تنظیم دقیق اضافه می شوند. فقط θپ برای به حداقل رساندن افت استاندارد آموزش LLM (به عنوان مثال، آنتروپی متقابل) به روز می شوند. چنین تنظیم دقیقی می تواند عملکرد پیش بینی انتخابی را بهبود بخشد زیرا نه تنها دقت پیش بینی را بهبود می بخشد، بلکه احتمال توالی خروجی صحیح را نیز افزایش می دهد.
نمونه گیری پاسخ دهید: پس از تنظیم ویژه کار، ASPIRE از LLM با θ آموخته شده استفاده می کندپ برای ایجاد پاسخ های مختلف برای هر سوال آموزشی و ایجاد مجموعه داده ای برای یادگیری خودارزیابی. هدف ما تولید توالیهای خروجی است که احتمال بالایی دارند. ما از جستجوی پرتو بهعنوان الگوریتم رمزگشایی برای تولید توالیهای خروجی با احتمال بالا و متریک Rouge-L برای تعیین اینکه آیا دنباله خروجی تولید شده درست است استفاده میکنیم.
یادگیری خودارزیابی: پس از نمونه برداری از خروجی های با احتمال بالا برای هر پرس و جو، ASPIRE پارامترهای قابل تطبیق را اضافه می کند (θس) و فقط θ را تنظیم می کندس برای یادگیری خودارزیابی از آنجایی که تولید توالی خروجی فقط به θ و θ بستگی داردپ، انجماد θ و θ آموخته شدهپ می تواند از تغییر رفتارهای پیش بینی LLM هنگام یادگیری خودارزیابی اجتناب کند. ما θ را بهینه می کنیمس به طوری که LLM سازگار می تواند بین پاسخ های صحیح و نادرست به تنهایی تمایز قائل شود.
سه مرحله چارچوب ASPIRE. |
در چارچوب پیشنهادی، θپ و θس را می توان با استفاده از هر رویکرد تنظیم پارامتر کارآمد آموزش داد. در این کار، ما از تنظیم سریع نرم، یک مکانیسم ساده و در عین حال مؤثر برای یادگیری «اعلانهای نرم» استفاده میکنیم تا مدلهای زبان ثابت را برای انجام وظایف پاییندستی خاص بهطور مؤثرتری نسبت به پیامهای متنی گسسته سنتی، شرطی کنیم. نیروی محرکه این رویکرد در شناخت این موضوع نهفته است که اگر بتوانیم اعلانهایی را ایجاد کنیم که به طور مؤثر خودارزیابی را تحریک میکنند، باید بتوان این اعلانها را از طریق تنظیم سریع نرمافزار در ارتباط با اهداف آموزشی هدفمند کشف کرد.
پیاده سازی چارچوب ASPIRE از طریق تنظیم سریع نرم افزار. ابتدا پاسخ سوال را با اولین دستور نرم افزاری ایجاد می کنیم و سپس نمره خودارزیابی آموخته شده را با دستور دوم نرم افزار محاسبه می کنیم. |
بعد از تمرین θپ و θس، پیش بینی پرس و جو را از طریق رمزگشایی جستجوی پرتو به دست می آوریم. سپس یک امتیاز انتخابی تعریف می کنیم که احتمال پاسخ تولید شده را با نمره خودارزیابی آموخته شده (یعنی احتمال درست بودن پیش بینی برای پرس و جو) ترکیب می کند تا پیش بینی های انتخابی انجام دهیم.
نتایج
برای نشان دادن اثربخشی ASPIRE، ما آن را در سه مجموعه داده پاسخگوی پرسش – CoQA، TriviaQA و SQuAD – با استفاده از مدلهای مختلف ترانسفورماتور از پیش آموزشدیده باز (OPT) ارزیابی میکنیم. با آموزش θپ با تنظیم سریع نرم، ما افزایش قابل توجهی در دقت LLM مشاهده کردیم. به عنوان مثال، مدل OPT-2.7B سازگار با ASPIRE عملکرد بهتری را نسبت به مدل OPT-30B بزرگتر و از پیش آموزش دیده با استفاده از مجموعه داده های CoQA و SQuAD نشان داد. این نتایج نشان میدهد که با سازگاریهای مناسب، LLMهای کوچکتر ممکن است قابلیت مطابقت با مدلهای بزرگتر را در برخی سناریوها داشته باشند یا به طور بالقوه پیشی بگیرند.
هنگامی که در محاسبه امتیازهای انتخاب با پیشبینیهای مدل ثابت بررسی میشد، ASPIRE امتیاز AUROC بالاتری دریافت کرد (احتمال این که یک توالی خروجی درست انتخاب شده امتیاز انتخاب بالاتری نسبت به یک توالی خروجی نادرست انتخابی تصادفی داشته باشد) نسبت به روشهای پایه در همه مجموعههای داده. به عنوان مثال، در معیار CoQA، ASPIRE AUROC را از 51.3٪ به 80.3٪ در مقایسه با خطوط پایه بهبود می بخشد.
یک الگوی جالب از ارزیابی های مجموعه داده TriviaQA پدیدار شد. در حالی که مدل OPT-30B از قبل آموزش داده شده دقت پایه بالاتری را نشان داد، عملکرد آن در پیشبینی انتخابی هنگامی که روشهای خودارزیابی سنتی – Self-eval و P (True) – به کار گرفته شد، به طور قابلتوجهی بهبود نیافت. در مقابل، مدل کوچکتر OPT-2.7B، هنگامی که با ASPIRE تقویت شد، در این جنبه عملکرد بهتری داشت. این اختلاف بر یک بینش حیاتی تأکید میکند: LLMهای بزرگتر که از تکنیکهای خودارزیابی مرسوم استفاده میکنند ممکن است به اندازه مدلهای کوچکتر و تقویتشده ASPIRE در پیشبینی انتخابی مؤثر نباشند.
سفر تجربی ما با ASPIRE بر یک تغییر اساسی در چشمانداز LLM تاکید میکند: ظرفیت یک مدل زبان، همه و همه عملکرد آن نیست. در عوض، اثربخشی مدلها را میتوان از طریق تطبیقهای استراتژیک به شدت بهبود بخشید و امکان پیشبینی دقیقتر و مطمئنتر را حتی در مدلهای کوچکتر فراهم میکند. در نتیجه، ASPIRE به عنوان شاهدی بر پتانسیل LLM ها است که می توانند به طور عاقلانه اطمینان خود را مشخص کنند و به طور قاطع از همتایان بزرگتر در کارهای پیش بینی انتخابی بهتر عمل کنند.
نتیجه
در نتیجه، ASPIRE فقط یک چارچوب دیگر نیست. این چشم اندازی از آینده ای است که در آن LLM ها می توانند شرکای قابل اعتماد در تصمیم گیری باشند. با تقویت عملکرد پیشبینی انتخابی، به درک کامل پتانسیل هوش مصنوعی در برنامههای کاربردی حیاتی نزدیکتر میشویم.
تحقیقات ما درهای جدیدی را گشوده است و از جامعه دعوت می کنیم تا بر این پایه بنا شود. ما هیجان زده هستیم که ببینیم ASPIRE چگونه الهام بخش نسل بعدی LLM ها و فراتر از آن خواهد بود. برای کسب اطلاعات بیشتر در مورد یافته های ما، شما را تشویق می کنیم مقاله ما را بخوانید و در این سفر هیجان انگیز به سمت ایجاد یک هوش مصنوعی قابل اعتمادتر و خودآگاه به ما بپیوندید.
قدردانی ها
ما از کمک های ساینا ابراهیمی، سرکان او آریک، توماس پیستر و سامش جا تشکر می کنیم.