شکل های تکمیلی و جداول تکمیلی

  1. چکیده و مقدمه

  2. SylloBio-NLI

  3. ارزیابی تجربی

  4. کار مرتبط

  5. نتیجه گیری

  6. محدودیت ها و مراجع

    \

الف. رسمی کردن فرآیند تولید منابع SylloBio-NLI

ب- رسمی سازی وظایف 1 و 2

ج. فرهنگ عضویت ژن و مسیر

D. خط لوله مخصوص دامنه برای ایجاد نمونه های NL و دسترسی E به LLM

F. جزئیات تجربی

ز. معیارهای ارزیابی

H. درخواست LLMs – دستورات صفر شات

I. درخواست LLM – چند اعلان

J. نتایج: دستورالعمل-پاسخ نامناسب

K. نتایج: تأثیر مبهم عوامل حواس پرتی بر استدلال

L. نتایج: مدل‌ها دانش زمینه‌ای را بر دانش زمینه اولویت می‌دهند

M شکل های تکمیلی و N جداول تکمیلی

M ارقام تکمیلی

N جداول تکمیلی

شکل های تکمیلی و جداول تکمیلی

\
شکل 10: توزیع درصد انواع پاسخ مدل تحت تنظیمات شات صفر برای اعلان‌ها با همه حواس‌پرتی‌ها برای مجموعه متون استدلالی واقعی بیولوژیکی.

\
شکل 11: توزیع درصد انواع پاسخ مدل تحت تنظیمات چند شات برای اعلانات با همه حواس پرتی برای مجموعه متون استدلالی واقعی بیولوژیکی.

\
شکل 12: وظیفه 1: دقت در برابر تعداد حواس پرت کننده ها و طرح در تنظیم شات صفر. خطوط، مقادیر متوسط ​​را برای هر مدل، با نوارهای خطا که محدوده (حداقل-حداکثر) را نشان می دهد، به هم متصل می کنند.

\
شکل 13: وظیفه 1: دقت در برابر تعداد حواس پرت کننده ها و طرح در تنظیمات چند شات. خطوط، مقادیر متوسط ​​را برای هر مدل، با نوارهای خطا که محدوده (حداقل-حداکثر) را نشان می دهد، به هم متصل می کنند.

\
شکل 14: وظیفه 2: دقت استدلال در مقابل تعداد حواس پرت کننده ها و طرح در تنظیم شات صفر. خطوط، مقادیر متوسط ​​را برای هر مدل، با نوارهای خطا که محدوده (حداقل-حداکثر) را نشان می دهد، به هم متصل می کنند.

\
جدول 4: وظیفه 1: توزیع انواع پاسخ مدل و نتایج عملکرد در دو محیط آزمایشی - ZS و FS، با در نظر گرفتن همه شرایط حواس‌پرتی (n حواس‌پرتی از 0 تا 5)، برای همه طرح‌های قیاسی در متون استدلالی واقعی بیولوژیکی. انواع پاسخ عبارتند از: خروجی های غیر خالی، تولید متن نامربوط، و خروجی هایی که به دستورالعمل های داده شده پایبند هستند.

\
شکل 15: وظیفه 2: دقت استدلال در مقابل تعداد حواس پرت کننده ها و طرح در تنظیم چند شات. خطوط، مقادیر متوسط ​​را برای هر مدل، با نوارهای خطا که محدوده (حداقل-حداکثر) را نشان می دهد، به هم متصل می کنند.

\
جدول 5: نتایج حاصل از مدل های پایه وظیفه 1 در مجموعه متون استدلالی واقعی بیولوژیکی (بدون داده های مصنوعی و بدون حواس پرتی، پررنگ - بهترین و بدترین مقادیر دقت برای هر مدل).

\
جدول 6: مقادیر ضریب همبستگی رتبه بندی شده اسپیرمن (r) برای دقت توسط عوامل حواس پرتی و طرح قیاسی برای مدل های ارزیابی شده در کار 1: ضرایب همبستگی اسپیرمن (r) و مقادیر p برای متریک دقت در سطوح مختلف حواس پرتی و قیاسی نشان داده شده است. طرح ها برای هر مدل مقادیر r منفی منعکس کننده کاهش دقت با افزایش پیچیدگی حواس پرت کننده است. بالاترین مقادیر همبستگی برای هر طرح به صورت پررنگ برجسته شده است، که نشان‌دهنده مدل‌هایی است که بیشتر تحت تأثیر عوامل حواس‌پرتی قرار گرفته‌اند.

\
جدول 7: دقت استدلال از مدل های پایه وظیفه 2 در مجموعه متون استدلالی واقعی بیولوژیکی (بدون داده های ترکیبی و بدون حواس پرتی) حاصل می شود.

\
جدول 8: مقادیر ضریب همبستگی رتبه بندی شده اسپیرمن (r) برای دقت توسط عوامل حواس پرت و طرح قیاسی برای مدل های ارزیابی شده در کار 2: ضرایب همبستگی اسپیرمن (r) و مقادیر p برای متریک دقت استدلال در سطوح مختلف حواس پرتی نشان داده شده است. طرح های قیاسی برای هر مدل مقادیر r منفی منعکس کننده کاهش دقت با افزایش پیچیدگی حواس پرت کننده است. بالاترین مقادیر همبستگی برای هر طرح به صورت پررنگ برجسته شده است، که نشان‌دهنده مدل‌هایی است که بیشتر تحت تأثیر عوامل حواس‌پرتی قرار گرفته‌اند.

\

:::اطلاعات
نویسندگان:

(1) Magdalena Wysocka، مرکز ملی نشانگر زیستی، CRUK-MI، دانشگاه. منچستر، بریتانیا؛

(2) Danilo S. Carvalho، مرکز ملی نشانگر زیستی، CRUK-MI، Univ. منچستر، انگلستان و گروه علوم کامپیوتر، دانشگاه. منچستر، بریتانیا؛

(3) Oskar Wysocki، مرکز ملی نشانگر زیستی، CRUK-MI، دانشگاه. منچستر، بریتانیا و پادشاهی دیگر 3 I;

(4) مارکو والنتینو، موسسه تحقیقاتی Idiap، سوئیس.

(5) آندره فریتاس، نشانگر زیستی ملی…

Source link