هوش مصنوعی iAsk رکوردهای دقت را در چالش‌برانگیزترین معیار هوش مصنوعی شکست

موتورهای جستجو بر بازیابی اطلاعات تسلط دارند، اما هوش مصنوعی iAsk در حال بازتعریف چیزهایی است که ممکن است. در یک دستاورد پیشگامانه در معیار الماس GPQA، مدل پیشرفته iAsk AI، iAsk Pro، رکوردهای جدیدی را در دقت برای حل مسائل علمی پیچیده و فارغ التحصیل ثبت کرده است. این فقط یک نقطه عطف فنی نیست، بلکه تصور مجدد این است که چگونه هوش مصنوعی می‌تواند سوالات چالش برانگیز را با عمق و دقتی شبیه انسان درک، پردازش و پاسخ دهد.

معیار GPQA چیست؟

GPQA (معیار پرسش و پاسخ Google-Proof سطح فارغ‌التحصیلان) یکی از دقیق‌ترین تست‌ها برای مدل‌های هوش مصنوعی است که برای به چالش کشیدن آنها در زمینه‌هایی مانند زیست‌شناسی، فیزیک و شیمی طراحی شده است. اینها سوالات معمولی نیستند. آنها دانش و استدلال ظریف و چند مرحله‌ای را می‌طلبند که می‌تواند حتی متخصصان سطح دکترا را نیز تحت تأثیر قرار دهد. قابل توجه است، iAsk Pro در زیرمجموعه الماس GPQA – که شامل چالش‌برانگیزترین سؤالات معیار است – به رکورد 78.28 درصدی دقت کرد – بهتر از مدل‌های پیشرو مانند GPT OpenAI و Claude 3.5 Anthropic. این دستاورد استاندارد جدیدی را در ظرفیت هوش مصنوعی برای مقابله با سخت ترین و پیچیده ترین پرس و جوها ایجاد می کند.

برخلاف معیارهای عمومی، GPQA روی سؤالات «محافظ از Google» تمرکز می‌کند که در برابر پاسخ‌های ساده مقاومت می‌کنند. این سؤالات مستلزم استدلال پیشرفته است، آن گونه که رقیب انسان …

Source link