آزمایش عمق همدلی هوش مصنوعی: معیارهای Q3 2024

در مارس 2024، من معیارهایی را منتشر کردم که قابلیت همدلی چندین LLM را مقایسه می کرد. طی شش ماه گذشته، با ظهور مدل‌های جدیدی مانند ارتقاء ChatGPT، Llama، Gemini و Claude، پیشرفت‌های قابل توجهی صورت گرفته است. من و تیمم عمیق‌تر به عواملی که به قابلیت‌های همدلانه یک LLM کمک می‌کنند، کاوش در استفاده از پاسخ‌های گفتاری، اصلاح درخواست‌ها و همکاری با دانشگاه هیوستون در یک مطالعه رسمی پرداخته‌ایم.

این مقاله خلاصه‌ای از یافته‌های Q3 من را ارائه می‌کند که شامل ChatGPT 4.0 و 1.0، Claude 3+، Gemini 1.5، Hume 2.0 و Llama 3.1 می‌شود. من هم مدل‌های خام و هم مدل‌هایی را که با استفاده از رویکردهای توسعه‌یافته برای Emy، یک هوش مصنوعی غیرتجاری که برای آزمایش نظریه‌های مرتبط با همدلی طراحی شده است، آزمایش کردم. (Emy یکی از هوش مصنوعی های مورد استفاده در مطالعه دانشگاه هیوستون بود.) من همچنین یک امتیاز مرجع برای ویلو، رهبر Q1 ارائه می دهم، اگرچه تغییرات قابل توجهی نداشته است. متأسفانه، به دلیل محدودیت های هزینه، ما نتوانستیم آزمایش های Mistral را به روز کنیم. با این حال، من تفسیری در مورد تولید گفتار اضافه کرده ام و هیوم و Speechify را با هم مقایسه کرده ام.

در نهایت، می دانم که برخی از خوانندگان این نتایج را سه هفته پیش پیش بینی می کردند. بابت تاخیر عذرخواهی میکنم برخی از اکتشافات در مورد AEQr در طول تجزیه و تحلیل، من را ملزم به توقف و تجدید نظر در عدد مورد استفاده برای …

Source link