OpenAI o1 – همدلی Questoinable

OpenAI o1 درست به موقع منتشر شد تا من آن را به معیارهای Q3 2024 خود در مورد همدلی هوش مصنوعی اضافه کنم (هفته آینده منتشر خواهد شد). نتایج برای o1 در آن واحد دلگرم کننده و نگران کننده بود. O1 توانایی شگفت انگیزی در کنار گذاشتن تمرکز معمولی LLM بر روی حقایق و سیستم ها و تمرکز بر احساسات و عواطف زمانی دارد که برای انجام این کار هدایت شود. همچنین تمایل نسبتاً نگران کننده ای برای ارائه دلایل متناقض و غیرمنطقی برای پاسخ های خود دارد.

روش شناسی تست

برای کسانی که با کار معیار Q1 من آشنا نیستند، یک مرور سریع از روش تست من باید مفید باشد.

محک گذاری رسمی با استفاده از چندین تست استاندارد انجام می شود، دو مورد مهم EQ (ضریب همدلی) و SQ-R (ضریب سیستم سازی). هر دو در مقیاس 0 تا 80 نمره گذاری می شوند.

نسبت دو EQ/SQ-R منجر به چیزی می شود که من AEQr (نسبت همدلی کاربردی) می نامم. AEQr بر اساس این فرضیه ایجاد شد که تمایل به سیستم سازی و تمرکز بر واقعیت ها تأثیر منفی بر توانایی همدلی دارد.

در انسان‌ها، این امر در گسست کلاسیک بین زنانی که بر بحث درباره احساسات تمرکز می‌کنند و مردانی که بر روی یافتن فوری راه‌حل‌ها تمرکز می‌کنند، زمانی که به نظر می‌رسد مشکلی در دست است، آشکار می‌شود. تا به امروز، اعتبار AEQr برای ارزیابی هوش مصنوعی با آزمایش آنها با دیالوگ های مختلف برای دیدن اینکه آیا …

Source link