محققان GPT-4 را با روش جدید تشویقی گسترش دادند

مایکروسافت یک مطالعه تحقیقاتی منتشر کرد که نشان می‌دهد چگونه تکنیک‌های پیشنهادی پیشرفته می‌تواند باعث شود یک هوش مصنوعی عمومی مانند GPT-4 به همان خوبی یا بهتر از یک هوش مصنوعی متخصص که برای یک موضوع خاص آموزش دیده است، عمل کند. محققان دریافتند که می توانند GPT-4 را بهتر از مدل Med-PaLM 2 آموزش دیده گوگل که به صراحت در این موضوع آموزش داده شده بود، پیشی گیرند.

تکنیک های پیشرفته اعلان

نتایج این تحقیق بینش‌هایی را تأیید می‌کند که کاربران پیشرفته هوش مصنوعی مولد کشف کرده‌اند و از آن برای تولید تصاویر یا خروجی متن شگفت‌انگیز استفاده می‌کنند.

اعلان پیشرفته عموماً به عنوان مهندسی سریع شناخته می شود. در حالی که برخی ممکن است این موضوع را به سخره بگیرند که تلقین می‌تواند آنقدر عمیق باشد که نام مهندسی را تضمین کند، واقعیت این است که تکنیک‌های پیشنهادی پیشرفته مبتنی بر اصول درستی هستند و نتایج این مطالعه تحقیقاتی بر این واقعیت تأکید می‌کند.

به عنوان مثال، تکنیکی که توسط محققان استفاده می شود، استدلال زنجیره فکر (CoT) یکی از تکنیک هایی است که بسیاری از کاربران پیشرفته هوش مصنوعی مولد آن را کشف کرده اند و به طور سازنده از آن استفاده کرده اند.

درخواست زنجیره فکر روشی است که توسط گوگل در ماه می 2022 ارائه شده است که به هوش مصنوعی امکان می دهد یک کار را بر اساس استدلال به مراحل تقسیم کند.

من در مورد مقاله تحقیقاتی گوگل در مورد استدلال زنجیره‌ای فکر کردم که به هوش مصنوعی اجازه می‌دهد تا یک کار را به مراحل تقسیم کند، و به آن توانایی حل هر نوع مشکل کلمه (از جمله ریاضی) و دستیابی به استدلال عقل سلیم را می‌دهد.

این اصول در نهایت راه خود را به این نتیجه رساندند که چگونه کاربران هوش مصنوعی مولد خروجی با کیفیت بالا را، خواه ایجاد تصاویر یا خروجی متن، استخراج می کنند.

پیتر هترلی (نمایه فیس بوک)، بنیانگذار مجموعه برنامه‌های وب اطلاعات نویسنده، از کاربرد زنجیره‌ای از انگیزه‌های فکری ستایش کرد:

«تغییر زنجیره‌ای از افکار ایده‌های اصلی شما را می‌گیرد و آنها را به چیزی خارق‌العاده تبدیل می‌کند.»

پیتر همچنین خاطرنشان کرد که CoT را در GPTهای سفارشی خود به منظور افزایش شارژ آنها اضافه می کند.

انگیزه زنجیره فکر (CoT) از این کشف شکل گرفت که درخواست از یک هوش مصنوعی مولد برای چیزی کافی نیست زیرا خروجی به طور مداوم کمتر از ایده آل خواهد بود.

کاری که درخواست CoT انجام می دهد این است که مراحلی را که هوش مصنوعی مولد برای رسیدن به خروجی مورد نظر باید طی کند، مشخص می کند.

پیشرفت این تحقیق این است که استفاده از استدلال CoT به علاوه دو تکنیک دیگر به آنها اجازه می دهد تا به سطوح کیفیت خیره کننده ای فراتر از آنچه ممکن بود دست یابند.

این تکنیک Medprompt نام دارد.

Medprompt ارزش تکنیک های پیشرفته را اثبات می کند

محققان تکنیک خود را در برابر چهار مدل پایه مختلف آزمایش کردند:

  1. Flan-PaLM 540B
  2. Med-PaLM 2
  3. GPT-4
  4. GPT-4 MedPrompt

آنها از مجموعه داده های معیاری که برای آزمایش دانش پزشکی ایجاد شده بودند استفاده کردند. برخی از این تست ها برای استدلال و برخی سوالات امتحانات هیئت پزشکی بود.

چهار مجموعه داده معیارهای پزشکی

  1. MedQA (PDF)
    مجموعه داده پاسخگویی به سوالات چند گزینه ای
  2. PubMedQA (PDF)
    بله/خیر/شاید مجموعه داده QA
  3. MedMCQA (PDF)
    مجموعه داده چند انتخابی چند موضوعی
  4. MMLU (درک زبان چندوظیفه ای عظیم) (PDF)
    این مجموعه داده شامل 57 وظیفه در چندین حوزه است که در موضوعات علوم انسانی، علوم اجتماعی و STEM (علوم، فناوری، مهندسی و ریاضی) قرار دارد.
    محققان تنها از وظایف مرتبط با پزشکی مانند دانش بالینی، ژنتیک پزشکی، آناتومی، پزشکی حرفه ای، زیست شناسی کالج و پزشکی دانشگاه استفاده کردند.

GPT-4 با استفاده از Medprompt کاملاً تمام رقبای خود را که در هر چهار مجموعه داده مرتبط پزشکی با آنها آزمایش شده بود، برتری داد.

جدول نشان می دهد که چگونه Medprompt از سایر مدل های پایه پیشی گرفته است

تصویر صفحه‌نمایش نشان می‌دهد که چگونه نمرات عملکرد Medprompt از مدل‌های پایه تخصصی پیشرفته‌تر فراتر رفته است

چرا Medprompt مهم است

محققان دریافتند که استفاده از استدلال CoT، همراه با سایر استراتژی‌های محرک، می‌تواند باعث شود که یک مدل پایه عمومی مانند GPT-4 از مدل‌های تخصصی که فقط در یک حوزه (حوزه دانش) آموزش دیده‌اند، بهتر عمل کند.

چیزی که این تحقیق را به ویژه برای همه افرادی که از هوش مصنوعی مولد استفاده می‌کنند مرتبط می‌کند این است که تکنیک MedPrompt می‌تواند برای استخراج خروجی با کیفیت بالا در هر حوزه دانشی و نه فقط در حوزه پزشکی استفاده شود.

پیامدهای این پیشرفت این است که ممکن است نیازی به صرف منابع زیادی برای آموزش یک مدل زبان بزرگ متخصص نباشد تا در یک زمینه خاص متخصص باشد.

برای به دست آوردن خروجی هوش مصنوعی مولد برجسته، فقط باید اصول Medprompt را اعمال کنید.

سه استراتژی تحریک

محققان سه استراتژی تحریک کننده را شرح دادند:

  1. انتخاب پویا چند شات
  2. زنجیره فکری خودساخته
  3. انتخاب گروه بندی مخلوط

انتخاب پویا چند شات

انتخاب پویا چند شات، مدل هوش مصنوعی را قادر می‌سازد تا نمونه‌های مرتبط را در طول آموزش انتخاب کند.

یادگیری چند شات راهی برای مدل پایه برای یادگیری و انطباق با وظایف خاص تنها با چند مثال است.

در این روش، مدل‌ها از مجموعه نسبتاً کوچکی از مثال‌ها (در مقابل میلیاردها مثال) یاد می‌گیرند، با این تمرکز که نمونه‌ها نماینده طیف وسیعی از سؤالات مرتبط با حوزه دانش هستند.

به طور سنتی، کارشناسان به صورت دستی این نمونه ها را ایجاد می کنند، اما اطمینان از پوشش همه احتمالات چالش برانگیز است. یک جایگزین، به نام یادگیری چند شات پویا، از مثال‌هایی استفاده می‌کند که شبیه به وظایفی هستند که مدل باید حل کند، مثال‌هایی که از مجموعه داده‌های آموزشی بزرگ‌تری انتخاب شده‌اند.

در تکنیک Medprompt، محققان نمونه‌های آموزشی را انتخاب کردند که از نظر معنایی شبیه به یک مورد آزمایشی خاص هستند. این رویکرد پویا کارآمدتر از روش‌های سنتی است، زیرا از داده‌های آموزشی موجود بدون نیاز به به‌روزرسانی‌های گسترده مدل استفاده می‌کند.

زنجیره فکری خودساخته

تکنیک زنجیره فکری خود تولید شده از عبارات زبان طبیعی استفاده می کند تا مدل هوش مصنوعی را با یک سری مراحل استدلالی هدایت کند و ایجاد نمونه های زنجیره ای فکری را خودکار می کند که آن را از تکیه بر متخصصان انسانی رها می کند.

مقاله پژوهشی توضیح می دهد:

«زنجیره فکر (CoT) از عبارات زبان طبیعی مانند «بیایید گام به گام فکر کنیم» استفاده می‌کند تا صراحتاً مدل را تشویق کند تا یک سری مراحل استدلال میانی ایجاد کند.

این رویکرد به طور قابل توجهی توانایی مدل‌های پایه را برای انجام استدلال پیچیده بهبود می‌بخشد.

بیشتر رویکردهای زنجیره‌ای از فکر بر استفاده از متخصصان برای نوشتن دستی نمونه‌های چندشاخه‌ای با زنجیره‌های فکری برای تحریک تمرکز دارند. به‌جای تکیه بر متخصصان انسانی، ما مکانیزمی را برای خودکارسازی ایجاد نمونه‌های زنجیره‌ای فکری دنبال کردیم.

ما متوجه شدیم که می‌توانیم به سادگی از GPT-4 بخواهیم تا با استفاده از اعلان زیر، زنجیره‌ای از فکر را برای مثال‌های آموزشی ایجاد کند:

Self-generated Chain-of-thought Template
## Question: {{question}}
{{answer_choices}}
## Answer
model generated chain of thought explanation
Therefore, the answer is [final model answer (e.g. A,B,C,D)]"

محققان دریافتند که این روش می تواند نتایج اشتباهی (به عنوان نتایج توهم) به همراه داشته باشد. آنها این مشکل را با درخواست از GPT-4 برای انجام یک مرحله تأیید اضافی حل کردند.

این روشی است که محققان این کار را انجام دادند:

“یک چالش کلیدی در این رویکرد این است که منطق CoT خود تولید شده دارای خطر ضمنی شامل زنجیره های استدلال توهم یا نادرست است.

ما این نگرانی را با داشتن GPT-4 که ​​هم منطق و هم تخمینی از محتمل‌ترین پاسخ را از آن زنجیره استدلال ایجاد می‌کند، کاهش می‌دهیم.

اگر این پاسخ با برچسب صدق پایه مطابقت نداشته باشد، با این فرض که نمی‌توانیم به استدلال اعتماد کنیم، نمونه را به‌طور کامل کنار می‌گذاریم.

در حالی که استدلال توهم‌آمیز یا نادرست همچنان می‌تواند پاسخ نهایی صحیح را ارائه دهد (یعنی مثبت کاذب)، ما متوجه شدیم که این مرحله تأیید برچسب ساده به عنوان یک فیلتر مؤثر برای منفی‌های کاذب عمل می‌کند.

انتخاب گروه مخلوط کردن

یک مشکل در پاسخگویی به سوالات چند گزینه ای این است که مدل های پایه (GPT-4 یک مدل پایه است) می توانند سوگیری موقعیت را نشان دهند.

به طور سنتی، سوگیری موقعیت، تمایلی است که انسان ها برای انتخاب گزینه های برتر در فهرست انتخاب ها دارند.

به عنوان مثال، تحقیقات نشان داده است که اگر فهرستی از نتایج جستجو به کاربران ارائه شود، اکثر مردم تمایل دارند از نتایج برتر انتخاب کنند، حتی اگر نتایج اشتباه باشد. به طور شگفت انگیزی، مدل های پایه رفتار مشابهی را نشان می دهند.

محققان تکنیکی را برای مبارزه با سوگیری موقعیت زمانی که مدل پایه با پاسخ به یک سوال چند گزینه ای مواجه می شود، ایجاد کردند.

این رویکرد تنوع پاسخ‌ها را با شکست دادن آنچه «رمزگشایی حریصانه» نامیده می‌شود، افزایش می‌دهد، که رفتار مدل‌های پایه مانند GPT-4 در انتخاب محتمل‌ترین کلمه یا عبارت در مجموعه‌ای از کلمات یا عبارات است.

در رمزگشایی حریصانه، در هر مرحله از تولید یک دنباله از کلمات (یا در بافت تصویر، پیکسل)، مدل بر اساس بافت فعلی خود، محتمل ترین کلمه/عبارت/پیکسل (معروف به نشانه) را انتخاب می کند.

مدل در هر مرحله بدون در نظر گرفتن تأثیر روی توالی کلی انتخاب می کند.

انتخاب گروه ترکیبی دو مشکل را حل می کند:

  1. تعصب موقعیت
  2. رمزگشایی حریصانه

اینگونه توضیح داده شده است:

برای کاهش این سوگیری، ما پیشنهاد می‌کنیم که انتخاب‌ها را به هم بزنیم و سپس سازگاری پاسخ‌ها را برای ترتیب‌های مختلف مرتب‌سازی چند گزینه‌ای بررسی کنیم.

در نتیجه، ما به هم زدن انتخاب و اعلان خود سازگاری را انجام می دهیم. خودسازگاری رمزگشایی ساده تک مسیری یا حریصانه را با مجموعه‌ای از مسیرهای استدلالی که چندین بار در دمای > 0 از آنها خواسته می‌شود جایگزین می‌کند، تنظیمی که درجه‌ای از تصادفی بودن را در نسل‌ها معرفی می‌کند.

با به هم زدن انتخاب، قبل از ایجاد هر مسیر استدلال، ترتیب نسبی گزینه‌های پاسخ را به هم می‌زنیم. سپس منسجم ترین پاسخ را انتخاب می کنیم، یعنی پاسخی که کمترین حساسیت را به درهم ریختن انتخاب دارد.

به هم زدن انتخاب مزیت دیگری در افزایش تنوع هر مسیر استدلالی فراتر از نمونه گیری دما دارد و در نتیجه کیفیت مجموعه نهایی را نیز بهبود می بخشد.

ما همچنین از این تکنیک در تولید مراحل CoT میانی برای مثال‌های آموزشی استفاده می‌کنیم. برای هر مثال، چند بار انتخاب‌ها را به هم می‌زنیم و برای هر نوع یک CoT ایجاد می‌کنیم. ما فقط نمونه هایی را با پاسخ صحیح نگه می داریم.»

بنابراین، با به هم زدن انتخاب‌ها و قضاوت در مورد سازگاری پاسخ‌ها، این روش نه تنها سوگیری را کاهش می‌دهد، بلکه به عملکرد پیشرفته در مجموعه داده‌های معیار کمک می‌کند و از مدل‌های آموزش‌دیده‌ی پیچیده مانند Med-PaLM 2 بهتر عمل می‌کند.

موفقیت بین دامنه‌ای از طریق مهندسی سریع

در نهایت، چیزی که این مقاله تحقیقاتی را باورنکردنی می‌کند این است که برنده‌ها نه تنها در حوزه پزشکی قابل استفاده هستند، بلکه این تکنیک را می‌توان در هر نوع زمینه دانشی مورد استفاده قرار داد.

محققان می نویسند:

“ما متذکر می شویم که، در حالی که Medprompt عملکرد رکوردی را در مجموعه داده های معیار پزشکی به دست می آورد، الگوریتم هدف کلی است و محدود به حوزه پزشکی یا پاسخگویی به سوالات چند گزینه ای نیست.

ما معتقدیم که پارادایم کلی ترکیب انتخاب نمونه هوشمند چند شات، زنجیره خود تولید شده از مراحل استدلال فکری، و مجموعه آرای اکثریت می تواند به طور گسترده در سایر حوزه های مشکل، از جمله وظایف حل مسئله با محدودیت کمتر، اعمال شود.

این یک دستاورد مهم است زیرا به این معنی است که نتایج برجسته را می توان تقریباً در هر موضوعی بدون نیاز به صرف هزینه و زمان برای آموزش شدید یک مدل در حوزه های دانش خاص مورد استفاده قرار داد.

معنی Medprompt برای هوش مصنوعی مولد چیست؟

Medprompt راه جدیدی را برای استخراج قابلیت‌های مدل پیشرفته نشان داده است که هوش مصنوعی مولد را در طیف وسیعی از حوزه‌های دانش برای آموزش و تلاش بسیار کمتر از آنچه قبلاً درک می‌شد، سازگارتر و همه‌کاره‌تر می‌کند.

پیامدهای آینده هوش مصنوعی مولد بسیار عمیق است، بدون ذکر این که چگونه این ممکن است بر مهارت مهندسی سریع تأثیر بگذارد.

مقاله پژوهشی جدید را بخوانید:

آیا مدل‌های بنیاد جنرالیست می‌توانند از تیونینگ با هدف ویژه رقابت کنند؟ مطالعه موردی در پزشکی (PDF)

تصویر برجسته توسط Shutterstock/Asier Romero