نویسندگان:
(1) کیان یانگ، دانشگاه ژجیانگ، مشارکت برابر. این کار در طول دوره کارآموزی کیان یانگ در گروه علی بابا انجام شد.
(2) جین خو، گروه علی بابا، مشارکت برابر؛
(3) ونروی لیو، دانشگاه ژجیانگ؛
(4) یونفی چو، گروه علی بابا؛
(5) Xiaohuan Zhou، Alibaba Group;
(6) Yichong Leng، Alibaba Group.
(7) یوانجون لو، گروه علی بابا؛
(8) ژو ژائو، گروه علی بابا و مربوط به ژو ژائو ([email protected])
(9) Yichong Leng، دانشگاه ژجیانگ
(10) چانگ ژو، گروه علی بابا و مربوط به چانگ ژو ([email protected])
(11) جینگرن ژو، گروه علی بابا.
جدول پیوندها
چکیده و 1. مقدمه
2 کارهای مرتبط
3 AIR-Bench و 3.1 نمای کلی
3.2 معیار پایه
3.3 معیار چت
3.4 استراتژی ارزیابی
4 آزمایش
4.1 مدل ها
4.2 نتایج اصلی
4.3 ارزیابی انسانی و 4.4 مطالعه فرسایش سوگیری موقعیت
5 نتیجه گیری و مراجع
نتایج تفصیلی معیار پایه
4.2 نتایج اصلی
نتایج LALMها در جدول 3 وجود دارد. برای معیار پایه، ما همچنین مقایسه ای بین استفاده از یک استراتژی تطبیق دقیق با استراتژی هم ترازی GPT-4 پیشنهادی خود انجام می دهیم. به عنوان مثال، ما سعی می کنیم «B»، «B.»، «B)» و غیره را با فرضیه LALMs برای تطابق دقیق مطابقت دهیم. نتایج در جدول 4 نشان داده شده است.