ارزیابی: معیارهای هوش مصنوعی فراتر از ARC-AGI، MMMU، MLE-bench و آزمون FrontierMath

اندازه‌گیری هوش مصنوعی با ریاضی، کدگذاری، علوم، منطق یا آزمون‌های دیگر، حتی زمانی که قبلاً آن را ندیده باشد، مانند اندازه‌گیری دمای بالا رفتن آب با دست است. مشخص خواهد شد که داغ است، اما چقدر خاص نیاز به یک استاندارد دارد.

تنها معیار هوش، هوش انسان است. اندازه گیری هوش مصنوعی با هر چیزی غیر از هوش انسانی در حال حاضر غیرممکن است. هوش مصنوعی هوشمند است. در حال حاضر می تواند بسیاری از کارهایی که انسان ها می توانند انجام دهند را انجام دهد. حتی اگر قبلاً آن را ندیده بود، چندین راه حل در استان آن وجود دارد. اگر انسان در آزمونی که مستلزم تفکر و زمان است قبول شود، ذهن چگونه آن را حل می کند؟

این سوال فرض می کند که ذهن دارای اجزایی است. هنگام تلاش برای حل سوال، اجزا در رله هستند. چگونه رله می کنند؟ اگر آن رله ها برچسب گذاری شده باشند، هوش مصنوعی چگونه مقایسه می شود؟ این معیار نهایی برای هوش مصنوعی است.

LLM ها در پیش بینی عالی هستند. اگر چیزی شبیه به پیش بینی در ذهن انسان رخ دهد، می توان آن را به عنوان یک سطح از رله بیان کرد. اگر برای پاسخ به یک سؤال زمان صرف شود، که به معنای غربال کردن جنبه های مختلف ذهن است، این نیز می تواند به عنوان نوعی رله بیان شود.

می توان گفت اجزای ذهن انسان دارای ویژگی هایی هستند. این ویژگی ها نقاط قوت و ضعف خود را دارند. وجوه مشترکی در نحوه کار آنها وجود دارد …

Source link