مایکروسافت یک مطالعه تحقیقاتی منتشر کرد که نشان میدهد چگونه تکنیکهای پیشنهادی پیشرفته میتواند باعث شود یک هوش مصنوعی عمومی مانند GPT-4 به همان خوبی یا بهتر از یک هوش مصنوعی متخصص که برای یک موضوع خاص آموزش دیده است، عمل کند. محققان دریافتند که می توانند GPT-4 را بهتر از مدل Med-PaLM 2 آموزش دیده گوگل که به صراحت در این موضوع آموزش داده شده بود، پیشی گیرند.
تکنیک های پیشرفته اعلان
نتایج این تحقیق بینشهایی را تأیید میکند که کاربران پیشرفته هوش مصنوعی مولد کشف کردهاند و از آن برای تولید تصاویر یا خروجی متن شگفتانگیز استفاده میکنند.
اعلان پیشرفته عموماً به عنوان مهندسی سریع شناخته می شود. در حالی که برخی ممکن است این موضوع را به سخره بگیرند که تلقین میتواند آنقدر عمیق باشد که نام مهندسی را تضمین کند، واقعیت این است که تکنیکهای پیشنهادی پیشرفته مبتنی بر اصول درستی هستند و نتایج این مطالعه تحقیقاتی بر این واقعیت تأکید میکند.
به عنوان مثال، تکنیکی که توسط محققان استفاده می شود، استدلال زنجیره فکر (CoT) یکی از تکنیک هایی است که بسیاری از کاربران پیشرفته هوش مصنوعی مولد آن را کشف کرده اند و به طور سازنده از آن استفاده کرده اند.
درخواست زنجیره فکر روشی است که توسط گوگل در ماه می 2022 ارائه شده است که به هوش مصنوعی امکان می دهد یک کار را بر اساس استدلال به مراحل تقسیم کند.
من در مورد مقاله تحقیقاتی گوگل در مورد استدلال زنجیرهای فکر کردم که به هوش مصنوعی اجازه میدهد تا یک کار را به مراحل تقسیم کند، و به آن توانایی حل هر نوع مشکل کلمه (از جمله ریاضی) و دستیابی به استدلال عقل سلیم را میدهد.
این اصول در نهایت راه خود را به این نتیجه رساندند که چگونه کاربران هوش مصنوعی مولد خروجی با کیفیت بالا را، خواه ایجاد تصاویر یا خروجی متن، استخراج می کنند.
پیتر هترلی (نمایه فیس بوک)، بنیانگذار مجموعه برنامههای وب اطلاعات نویسنده، از کاربرد زنجیرهای از انگیزههای فکری ستایش کرد:
«تغییر زنجیرهای از افکار ایدههای اصلی شما را میگیرد و آنها را به چیزی خارقالعاده تبدیل میکند.»
پیتر همچنین خاطرنشان کرد که CoT را در GPTهای سفارشی خود به منظور افزایش شارژ آنها اضافه می کند.
انگیزه زنجیره فکر (CoT) از این کشف شکل گرفت که درخواست از یک هوش مصنوعی مولد برای چیزی کافی نیست زیرا خروجی به طور مداوم کمتر از ایده آل خواهد بود.
کاری که درخواست CoT انجام می دهد این است که مراحلی را که هوش مصنوعی مولد برای رسیدن به خروجی مورد نظر باید طی کند، مشخص می کند.
پیشرفت این تحقیق این است که استفاده از استدلال CoT به علاوه دو تکنیک دیگر به آنها اجازه می دهد تا به سطوح کیفیت خیره کننده ای فراتر از آنچه ممکن بود دست یابند.
این تکنیک Medprompt نام دارد.
Medprompt ارزش تکنیک های پیشرفته را اثبات می کند
محققان تکنیک خود را در برابر چهار مدل پایه مختلف آزمایش کردند:
- Flan-PaLM 540B
- Med-PaLM 2
- GPT-4
- GPT-4 MedPrompt
آنها از مجموعه داده های معیاری که برای آزمایش دانش پزشکی ایجاد شده بودند استفاده کردند. برخی از این تست ها برای استدلال و برخی سوالات امتحانات هیئت پزشکی بود.
چهار مجموعه داده معیارهای پزشکی
- MedQA (PDF)
مجموعه داده پاسخگویی به سوالات چند گزینه ای - PubMedQA (PDF)
بله/خیر/شاید مجموعه داده QA - MedMCQA (PDF)
مجموعه داده چند انتخابی چند موضوعی - MMLU (درک زبان چندوظیفه ای عظیم) (PDF)
این مجموعه داده شامل 57 وظیفه در چندین حوزه است که در موضوعات علوم انسانی، علوم اجتماعی و STEM (علوم، فناوری، مهندسی و ریاضی) قرار دارد.
محققان تنها از وظایف مرتبط با پزشکی مانند دانش بالینی، ژنتیک پزشکی، آناتومی، پزشکی حرفه ای، زیست شناسی کالج و پزشکی دانشگاه استفاده کردند.
GPT-4 با استفاده از Medprompt کاملاً تمام رقبای خود را که در هر چهار مجموعه داده مرتبط پزشکی با آنها آزمایش شده بود، برتری داد.
جدول نشان می دهد که چگونه Medprompt از سایر مدل های پایه پیشی گرفته است
چرا Medprompt مهم است
محققان دریافتند که استفاده از استدلال CoT، همراه با سایر استراتژیهای محرک، میتواند باعث شود که یک مدل پایه عمومی مانند GPT-4 از مدلهای تخصصی که فقط در یک حوزه (حوزه دانش) آموزش دیدهاند، بهتر عمل کند.
چیزی که این تحقیق را به ویژه برای همه افرادی که از هوش مصنوعی مولد استفاده میکنند مرتبط میکند این است که تکنیک MedPrompt میتواند برای استخراج خروجی با کیفیت بالا در هر حوزه دانشی و نه فقط در حوزه پزشکی استفاده شود.
پیامدهای این پیشرفت این است که ممکن است نیازی به صرف منابع زیادی برای آموزش یک مدل زبان بزرگ متخصص نباشد تا در یک زمینه خاص متخصص باشد.
برای به دست آوردن خروجی هوش مصنوعی مولد برجسته، فقط باید اصول Medprompt را اعمال کنید.
سه استراتژی تحریک
محققان سه استراتژی تحریک کننده را شرح دادند:
- انتخاب پویا چند شات
- زنجیره فکری خودساخته
- انتخاب گروه بندی مخلوط
انتخاب پویا چند شات
انتخاب پویا چند شات، مدل هوش مصنوعی را قادر میسازد تا نمونههای مرتبط را در طول آموزش انتخاب کند.
یادگیری چند شات راهی برای مدل پایه برای یادگیری و انطباق با وظایف خاص تنها با چند مثال است.
در این روش، مدلها از مجموعه نسبتاً کوچکی از مثالها (در مقابل میلیاردها مثال) یاد میگیرند، با این تمرکز که نمونهها نماینده طیف وسیعی از سؤالات مرتبط با حوزه دانش هستند.
به طور سنتی، کارشناسان به صورت دستی این نمونه ها را ایجاد می کنند، اما اطمینان از پوشش همه احتمالات چالش برانگیز است. یک جایگزین، به نام یادگیری چند شات پویا، از مثالهایی استفاده میکند که شبیه به وظایفی هستند که مدل باید حل کند، مثالهایی که از مجموعه دادههای آموزشی بزرگتری انتخاب شدهاند.
در تکنیک Medprompt، محققان نمونههای آموزشی را انتخاب کردند که از نظر معنایی شبیه به یک مورد آزمایشی خاص هستند. این رویکرد پویا کارآمدتر از روشهای سنتی است، زیرا از دادههای آموزشی موجود بدون نیاز به بهروزرسانیهای گسترده مدل استفاده میکند.
زنجیره فکری خودساخته
تکنیک زنجیره فکری خود تولید شده از عبارات زبان طبیعی استفاده می کند تا مدل هوش مصنوعی را با یک سری مراحل استدلالی هدایت کند و ایجاد نمونه های زنجیره ای فکری را خودکار می کند که آن را از تکیه بر متخصصان انسانی رها می کند.
مقاله پژوهشی توضیح می دهد:
«زنجیره فکر (CoT) از عبارات زبان طبیعی مانند «بیایید گام به گام فکر کنیم» استفاده میکند تا صراحتاً مدل را تشویق کند تا یک سری مراحل استدلال میانی ایجاد کند.
این رویکرد به طور قابل توجهی توانایی مدلهای پایه را برای انجام استدلال پیچیده بهبود میبخشد.
بیشتر رویکردهای زنجیرهای از فکر بر استفاده از متخصصان برای نوشتن دستی نمونههای چندشاخهای با زنجیرههای فکری برای تحریک تمرکز دارند. بهجای تکیه بر متخصصان انسانی، ما مکانیزمی را برای خودکارسازی ایجاد نمونههای زنجیرهای فکری دنبال کردیم.
ما متوجه شدیم که میتوانیم به سادگی از GPT-4 بخواهیم تا با استفاده از اعلان زیر، زنجیرهای از فکر را برای مثالهای آموزشی ایجاد کند:
Self-generated Chain-of-thought Template## Question: {{question}} {{answer_choices}} ## Answer model generated chain of thought explanation Therefore, the answer is [final model answer (e.g. A,B,C,D)]"
محققان دریافتند که این روش می تواند نتایج اشتباهی (به عنوان نتایج توهم) به همراه داشته باشد. آنها این مشکل را با درخواست از GPT-4 برای انجام یک مرحله تأیید اضافی حل کردند.
این روشی است که محققان این کار را انجام دادند:
“یک چالش کلیدی در این رویکرد این است که منطق CoT خود تولید شده دارای خطر ضمنی شامل زنجیره های استدلال توهم یا نادرست است.
ما این نگرانی را با داشتن GPT-4 که هم منطق و هم تخمینی از محتملترین پاسخ را از آن زنجیره استدلال ایجاد میکند، کاهش میدهیم.
اگر این پاسخ با برچسب صدق پایه مطابقت نداشته باشد، با این فرض که نمیتوانیم به استدلال اعتماد کنیم، نمونه را بهطور کامل کنار میگذاریم.
در حالی که استدلال توهمآمیز یا نادرست همچنان میتواند پاسخ نهایی صحیح را ارائه دهد (یعنی مثبت کاذب)، ما متوجه شدیم که این مرحله تأیید برچسب ساده به عنوان یک فیلتر مؤثر برای منفیهای کاذب عمل میکند.
انتخاب گروه مخلوط کردن
یک مشکل در پاسخگویی به سوالات چند گزینه ای این است که مدل های پایه (GPT-4 یک مدل پایه است) می توانند سوگیری موقعیت را نشان دهند.
به طور سنتی، سوگیری موقعیت، تمایلی است که انسان ها برای انتخاب گزینه های برتر در فهرست انتخاب ها دارند.
به عنوان مثال، تحقیقات نشان داده است که اگر فهرستی از نتایج جستجو به کاربران ارائه شود، اکثر مردم تمایل دارند از نتایج برتر انتخاب کنند، حتی اگر نتایج اشتباه باشد. به طور شگفت انگیزی، مدل های پایه رفتار مشابهی را نشان می دهند.
محققان تکنیکی را برای مبارزه با سوگیری موقعیت زمانی که مدل پایه با پاسخ به یک سوال چند گزینه ای مواجه می شود، ایجاد کردند.
این رویکرد تنوع پاسخها را با شکست دادن آنچه «رمزگشایی حریصانه» نامیده میشود، افزایش میدهد، که رفتار مدلهای پایه مانند GPT-4 در انتخاب محتملترین کلمه یا عبارت در مجموعهای از کلمات یا عبارات است.
در رمزگشایی حریصانه، در هر مرحله از تولید یک دنباله از کلمات (یا در بافت تصویر، پیکسل)، مدل بر اساس بافت فعلی خود، محتمل ترین کلمه/عبارت/پیکسل (معروف به نشانه) را انتخاب می کند.
مدل در هر مرحله بدون در نظر گرفتن تأثیر روی توالی کلی انتخاب می کند.
انتخاب گروه ترکیبی دو مشکل را حل می کند:
- تعصب موقعیت
- رمزگشایی حریصانه
اینگونه توضیح داده شده است:
برای کاهش این سوگیری، ما پیشنهاد میکنیم که انتخابها را به هم بزنیم و سپس سازگاری پاسخها را برای ترتیبهای مختلف مرتبسازی چند گزینهای بررسی کنیم.
در نتیجه، ما به هم زدن انتخاب و اعلان خود سازگاری را انجام می دهیم. خودسازگاری رمزگشایی ساده تک مسیری یا حریصانه را با مجموعهای از مسیرهای استدلالی که چندین بار در دمای > 0 از آنها خواسته میشود جایگزین میکند، تنظیمی که درجهای از تصادفی بودن را در نسلها معرفی میکند.
با به هم زدن انتخاب، قبل از ایجاد هر مسیر استدلال، ترتیب نسبی گزینههای پاسخ را به هم میزنیم. سپس منسجم ترین پاسخ را انتخاب می کنیم، یعنی پاسخی که کمترین حساسیت را به درهم ریختن انتخاب دارد.
به هم زدن انتخاب مزیت دیگری در افزایش تنوع هر مسیر استدلالی فراتر از نمونه گیری دما دارد و در نتیجه کیفیت مجموعه نهایی را نیز بهبود می بخشد.
ما همچنین از این تکنیک در تولید مراحل CoT میانی برای مثالهای آموزشی استفاده میکنیم. برای هر مثال، چند بار انتخابها را به هم میزنیم و برای هر نوع یک CoT ایجاد میکنیم. ما فقط نمونه هایی را با پاسخ صحیح نگه می داریم.»
بنابراین، با به هم زدن انتخابها و قضاوت در مورد سازگاری پاسخها، این روش نه تنها سوگیری را کاهش میدهد، بلکه به عملکرد پیشرفته در مجموعه دادههای معیار کمک میکند و از مدلهای آموزشدیدهی پیچیده مانند Med-PaLM 2 بهتر عمل میکند.
موفقیت بین دامنهای از طریق مهندسی سریع
در نهایت، چیزی که این مقاله تحقیقاتی را باورنکردنی میکند این است که برندهها نه تنها در حوزه پزشکی قابل استفاده هستند، بلکه این تکنیک را میتوان در هر نوع زمینه دانشی مورد استفاده قرار داد.
محققان می نویسند:
“ما متذکر می شویم که، در حالی که Medprompt عملکرد رکوردی را در مجموعه داده های معیار پزشکی به دست می آورد، الگوریتم هدف کلی است و محدود به حوزه پزشکی یا پاسخگویی به سوالات چند گزینه ای نیست.
ما معتقدیم که پارادایم کلی ترکیب انتخاب نمونه هوشمند چند شات، زنجیره خود تولید شده از مراحل استدلال فکری، و مجموعه آرای اکثریت می تواند به طور گسترده در سایر حوزه های مشکل، از جمله وظایف حل مسئله با محدودیت کمتر، اعمال شود.
این یک دستاورد مهم است زیرا به این معنی است که نتایج برجسته را می توان تقریباً در هر موضوعی بدون نیاز به صرف هزینه و زمان برای آموزش شدید یک مدل در حوزه های دانش خاص مورد استفاده قرار داد.
معنی Medprompt برای هوش مصنوعی مولد چیست؟
Medprompt راه جدیدی را برای استخراج قابلیتهای مدل پیشرفته نشان داده است که هوش مصنوعی مولد را در طیف وسیعی از حوزههای دانش برای آموزش و تلاش بسیار کمتر از آنچه قبلاً درک میشد، سازگارتر و همهکارهتر میکند.
پیامدهای آینده هوش مصنوعی مولد بسیار عمیق است، بدون ذکر این که چگونه این ممکن است بر مهارت مهندسی سریع تأثیر بگذارد.
مقاله پژوهشی جدید را بخوانید:
آیا مدلهای بنیاد جنرالیست میتوانند از تیونینگ با هدف ویژه رقابت کنند؟ مطالعه موردی در پزشکی (PDF)
تصویر برجسته توسط Shutterstock/Asier Romero