در مارس 2024، من معیارهایی را منتشر کردم که قابلیت همدلی چندین LLM را مقایسه می کرد. طی شش ماه گذشته، با ظهور مدلهای جدیدی مانند ارتقاء ChatGPT، Llama، Gemini و Claude، پیشرفتهای قابل توجهی صورت گرفته است. من و تیمم عمیقتر به عواملی که به قابلیتهای همدلانه یک LLM کمک میکنند، کاوش در استفاده از پاسخهای گفتاری، اصلاح درخواستها و همکاری با دانشگاه هیوستون در یک مطالعه رسمی پرداختهایم.
این مقاله خلاصهای از یافتههای Q3 من را ارائه میکند که شامل ChatGPT 4.0 و 1.0، Claude 3+، Gemini 1.5، Hume 2.0 و Llama 3.1 میشود. من هم مدلهای خام و هم مدلهایی را که با استفاده از رویکردهای توسعهیافته برای Emy، یک هوش مصنوعی غیرتجاری که برای آزمایش نظریههای مرتبط با همدلی طراحی شده است، آزمایش کردم. (Emy یکی از هوش مصنوعی های مورد استفاده در مطالعه دانشگاه هیوستون بود.) من همچنین یک امتیاز مرجع برای ویلو، رهبر Q1 ارائه می دهم، اگرچه تغییرات قابل توجهی نداشته است. متأسفانه، به دلیل محدودیت های هزینه، ما نتوانستیم آزمایش های Mistral را به روز کنیم. با این حال، من تفسیری در مورد تولید گفتار اضافه کرده ام و هیوم و Speechify را با هم مقایسه کرده ام.
در نهایت، می دانم که برخی از خوانندگان این نتایج را سه هفته پیش پیش بینی می کردند. بابت تاخیر عذرخواهی میکنم برخی از اکتشافات در مورد AEQr در طول تجزیه و تحلیل، من را ملزم به توقف و تجدید نظر در عدد مورد استفاده برای …