ارزیابی قابلیت تفسیر مدل های ML از دیدگاه انسانی

در بخش قابل توجهی از کار قبلی، به طور ضمنی فرض می‌شد که شبکه‌های نمونه اولیه به طور ماهیت قابل تفسیر هستند. ما سه طرح ارزیابی انسان محور را برای ارزیابی این فرض ابداع کرده ایم. یکی برای ارزیابی تفسیرپذیری خود نمونه های اولیه، یکی برای ارزیابی شباهت بین نمونه های اولیه و مناطق فعال نمونه پرس و جو، و دیگری برای ارزیابی تفسیرپذیری خود فرآیند تصمیم گیری. آزمایش‌های ما نشان می‌دهد که این طرح‌ها می‌توانند بین روش‌های مختلف از نظر تفسیرپذیری تمایز قائل شوند در حالی که از مشکلات کارهای قبلی رنج نمی‌برند. علاوه بر این، ما این طرح را به هفت روش مرتبط در سه مجموعه داده اعمال کردیم. نتایج، تفسیر پذیری این روش ها را از دیدگاه انسانی روشن می کند.

نتایج نشان می‌دهد که همه روش‌های نمونه اولیه در مورد تفسیرپذیری انسانی برابر نیستند. در برخی موارد، مسائل شدیدی وجود دارد که به تفسیرپذیری این روش ها لطمه می زند. مهمترین آنها عدم شباهت بین نمونه اولیه و منطقه فعال سازی پرس و جو است. این مشکل برای همه مدل های آزمایش شده تا حدی وجود داشت. علاوه بر این، نمونه های اولیه برخی از مدل ها به اندازه کافی قابل تفسیر نبودند. در نهایت، ProtoPool یک مشکل قابل توجه دارد …