ارزیابی مدل‌های هوش مصنوعی با معیارهای HEIM برای عدالت، استحکام و موارد دیگر

نویسندگان:

(1) تونی لی، استنفورد با مشارکت برابر.

(2) میچیهیرو یاسوناگا، استنفورد با مشارکت برابر.

(3) چنلین منگ، استنفورد با مشارکت برابر.

(4) یفان مای، استنفورد؛

(5) جون سونگ پارک، استنفورد؛

(6) آگریم گوپتا، استنفورد؛

(7) یونژی ژانگ، استنفورد؛

(8) دیپاک نارایانان، مایکروسافت؛

(9) هانا بنیتا توفل، الف آلفا;

(10) مارکو بلاژنته، الف آلفا;

(11) Minguk Kang، POSTECH.

(12) Taesung Park، Adobe;

(13) Jure Leskovec، Stanford;

(14) Jun-Yan Zhu، CMU;

(15) لی فی فی، استانفورد;

(16) جیاجون وو، استنفورد؛

(17) استفانو ارمون، استنفورد;

(18) پرسی لیانگ، استنفورد.

چکیده و 1 مقدمه

2 چارچوب اصلی

3 جنبه

4 سناریو

5 معیارها

6 مدل

7 آزمایش و نتایج

8 کارهای مرتبط

9 نتیجه گیری

10 محدودیت

مشارکت های نویسنده، تقدیرنامه ها و مراجع

یک دیتاشیت

B جزئیات سناریو

C جزئیات متریک

جزئیات مدل D

E روش ارزیابی انسانی

5 معیارها

برای ارزیابی 12 جنبه (§3)، مجموعه‌ای متنوع و واقعی از معیارها را نیز ارائه می‌کنیم. جدول 3 یک نمای کلی از تمام معیارها و توضیحات آنها را ارائه می دهد.

جدول 3: معیارهای مورد استفاده برای ارزیابی 12 جنبه مدل های تولید تصویر. ما از معیارهای واقعی و انسانی و همچنین معیارهای موجود خودکار و رایج استفاده می کنیم.جدول 3: معیارهای مورد استفاده برای ارزیابی 12 جنبه مدل های تولید تصویر. ما از معیارهای واقعی و انسانی و همچنین معیارهای موجود خودکار و معمول استفاده می کنیم.

جدول 4: مدل های ارزیابی شده در تلاش HEIM.جدول 4: مدل های ارزیابی شده در تلاش HEIM.

در مقایسه با معیارهای قبلی، معیارهای ما واقع بینانه تر و گسترده تر هستند. ابتدا، علاوه بر معیارهای خودکار، از معیارهای انسانی (ردیف های بالا در جدول 3) برای انجام ارزیابی واقع بینانه که منعکس کننده انسان است استفاده می کنیم.

Source link