معیارهای ارزیابی برای ارزیابی عملکرد LLM در وظایف قیاسی

  1. چکیده و مقدمه

  2. SylloBio-NLI

  3. ارزیابی تجربی

  4. کار مرتبط

  5. نتیجه گیری

  6. محدودیت ها و مراجع

    \

الف. رسمی کردن فرآیند تولید منابع SylloBio-NLI

ب- رسمی سازی وظایف 1 و 2

ج. فرهنگ عضویت ژن و مسیر

D. خط لوله مخصوص دامنه برای ایجاد نمونه های NL و دسترسی E به LLM

F. جزئیات تجربی

ز. معیارهای ارزیابی

H. درخواست LLMs – دستورات صفر شات

I. درخواست LLM – چند اعلان

J. نتایج: دستورالعمل-پاسخ نامناسب

K. نتایج: تأثیر مبهم عوامل حواس پرتی بر استدلال

L. نتایج: مدل‌ها دانش زمینه‌ای را بر دانش زمینه اولویت می‌دهند

M شکل های تکمیلی و N جداول تکمیلی

G معیارهای ارزیابی

معیارهای ارزیابی برای ارزیابی عملکرد LLM در وظایف قیاسی

\

:::اطلاعات
نویسندگان:

(1) Magdalena Wysocka، مرکز ملی نشانگر زیستی، CRUK-MI، دانشگاه. منچستر، بریتانیا؛

(2) دانیلو اس. کاروالیو، مرکز ملی نشانگر زیستی، CRUK-MI، دانشگاه. منچستر، بریتانیا و گروه علوم کامپیوتر، دانشگاه. منچستر، بریتانیا؛

(3) Oskar Wysocki، مرکز ملی نشانگر زیستی، CRUK-MI، دانشگاه. منچستر، بریتانیا و پادشاهی دیگر 3 I;

(4) مارکو والنتینو، موسسه تحقیقاتی Idiap، سوئیس.

(5) آندره فریتاس، مرکز ملی نشانگر زیستی، CRUK-MI، دانشگاه. منچستر، بریتانیا، وزارت …

Source link