OpenAI o1 درست به موقع منتشر شد تا من آن را به معیارهای Q3 2024 خود در مورد همدلی هوش مصنوعی اضافه کنم (هفته آینده منتشر خواهد شد). نتایج برای o1 در آن واحد دلگرم کننده و نگران کننده بود. O1 توانایی شگفت انگیزی در کنار گذاشتن تمرکز معمولی LLM بر روی حقایق و سیستم ها و تمرکز بر احساسات و عواطف زمانی دارد که برای انجام این کار هدایت شود. همچنین تمایل نسبتاً نگران کننده ای برای ارائه دلایل متناقض و غیرمنطقی برای پاسخ های خود دارد.
روش شناسی تست
برای کسانی که با کار معیار Q1 من آشنا نیستند، یک مرور سریع از روش تست من باید مفید باشد.
محک گذاری رسمی با استفاده از چندین تست استاندارد انجام می شود، دو مورد مهم EQ (ضریب همدلی) و SQ-R (ضریب سیستم سازی). هر دو در مقیاس 0 تا 80 نمره گذاری می شوند.
نسبت دو EQ/SQ-R منجر به چیزی می شود که من AEQr (نسبت همدلی کاربردی) می نامم. AEQr بر اساس این فرضیه ایجاد شد که تمایل به سیستم سازی و تمرکز بر واقعیت ها تأثیر منفی بر توانایی همدلی دارد.
در انسانها، این امر در گسست کلاسیک بین زنانی که بر بحث درباره احساسات تمرکز میکنند و مردانی که بر روی یافتن فوری راهحلها تمرکز میکنند، زمانی که به نظر میرسد مشکلی در دست است، آشکار میشود. تا به امروز، اعتبار AEQr برای ارزیابی هوش مصنوعی با آزمایش آنها با دیالوگ های مختلف برای دیدن اینکه آیا …