در این کار، ما یک چارچوب روششناختی جدید، SylloBio-NLI، پیشنهاد کردیم که برای ارزیابی قابلیتهای استدلال قیاسی LLMهای پیشرفته در حوزه زیستپزشکی طراحی شده است. از طریق تجزیه و تحلیل جامع در 28 طرح قیاسی، ما عملکرد هشت مدل مختلف را تحت شرایط مختلف، از جمله تنظیمات صفر و چند شات، ارزیابی کردیم. نتایج ما نشان میدهد که هر دو تکنیک حساسیت بالایی به تغییرات واژگانی سطحی نشان میدهند، که وابستگی بین قابلیت اطمینان، معماری مدلها و رژیم قبل از آموزش را برجسته میکند. به طور کلی، ارزیابی ما نشان میدهد که، در حالی که استراتژیهای چند شات پتانسیل استخراج استدلال قیاسی در LLMها را دارند، مدلهای موجود هنوز از دستیابی به استحکام و سازگاری مورد نیاز برای کاربردهای ایمن NLI زیستپزشکی فاصله دارند.
نویسندگان:
(1) Magdalena Wysocka، مرکز ملی نشانگر زیستی، CRUK-MI، دانشگاه. منچستر، بریتانیا؛
(2) دانیلو اس. کاروالیو، مرکز ملی نشانگر زیستی، CRUK-MI، دانشگاه. منچستر، بریتانیا و گروه علوم کامپیوتر، دانشگاه. منچستر، بریتانیا؛
(3) Oskar Wysocki، مرکز ملی نشانگر زیستی، CRUK-MI، دانشگاه. منچستر، بریتانیا و پادشاهی دیگر 3 I;
(4) مارکو والنتینو، موسسه تحقیقاتی Idiap، سوئیس.
(5) آندره فریتاس، ملی…