محدودیت‌ها در ارزیابی مدل هوش مصنوعی: تعصب، کارایی و قضاوت انسانی

نویسندگان:

(1) تونی لی، استنفورد با مشارکت برابر.

(2) میچیهیرو یاسوناگا، استنفورد با مشارکت برابر.

(3) چنلین منگ، استنفورد با مشارکت برابر.

(4) یفان مای، استنفورد؛

(5) جون سونگ پارک، استنفورد؛

(6) آگریم گوپتا، استنفورد؛

(7) یونژی ژانگ، استنفورد؛

(8) دیپاک نارایانان، مایکروسافت؛

(9) هانا بنیتا توفل، الف آلفا;

(10) مارکو بلاژنته، الف آلفا;

(11) Minguk Kang، POSTECH.

(12) Taesung Park، Adobe;

(13) Jure Leskovec، Stanford;

(14) Jun-Yan Zhu، CMU;

(15) لی فی فی، استانفورد;

(16) جیاجون وو، استنفورد؛

(17) استفانو ارمون، استنفورد;

(18) پرسی لیانگ، استنفورد.

چکیده و 1 مقدمه

2 چارچوب اصلی

3 جنبه

4 سناریو

5 معیارها

6 مدل

7 آزمایش و نتایج

8 کارهای مرتبط

9 نتیجه گیری

10 محدودیت

مشارکت های نویسنده، تقدیرنامه ها و مراجع

یک دیتاشیت

B جزئیات سناریو

C جزئیات متریک

جزئیات مدل D

E روش ارزیابی انسانی

10 محدودیت

کار ما 12 جنبه مهم را در به کارگیری مدل های تولید متن به تصویر در دنیای واقعی شناسایی می کند، یعنی همسویی، کیفیت، زیبایی شناسی، اصالت، استدلال، دانش، تعصب، سمیت، انصاف، استحکام، چند زبانه بودن و کارایی. در حالی که ما پیشرفت قابل توجهی در انجام یک ارزیابی جامع از مدل ها در این جنبه ها داشته ایم، برخی …

Source link