نویسندگان:
(1) کیان یانگ، دانشگاه ژجیانگ، مشارکت برابر. این کار در طول دوره کارآموزی کیان یانگ در گروه علی بابا انجام شد.
(2) جین خو، گروه علی بابا، مشارکت برابر؛
(3) ونروی لیو، دانشگاه ژجیانگ؛
(4) یونفی چو، گروه علی بابا؛
(5) Xiaohuan Zhou، Alibaba Group;
(6) Yichong Leng، Alibaba Group.
(7) یوانجون لو، گروه علی بابا؛
(8) ژو ژائو، گروه علی بابا و مربوط به ژو ژائو ([email protected])
(9) Yichong Leng، دانشگاه ژجیانگ
(10) چانگ ژو، گروه علی بابا و مربوط به چانگ ژو ([email protected])
(11) جینگرن ژو، گروه علی بابا.
جدول پیوندها
چکیده و 1. مقدمه
2 کارهای مرتبط
3 AIR-Bench و 3.1 نمای کلی
3.2 معیار پایه
3.3 معیار چت
3.4 استراتژی ارزیابی
4 آزمایش
4.1 مدل ها
4.2 نتایج اصلی
4.3 ارزیابی انسانی و 4.4 مطالعه فرسایش سوگیری موقعیت
5 نتیجه گیری و مراجع
نتایج تفصیلی معیار پایه
4.3 ارزیابی انسانی
برای ارزیابی سازگاری بین ارزیابی های GPT-4 و قضاوت های انسانی، ما طراحی می کنیم
آزمایشهایی برای معیارهای بنیاد و چت. برای معیار پایه، به آزمایشکنندگان دستور میدهیم که تعیین کنند کدام گزینه با فرضیه نزدیکتر است. سپس گزینه انتخاب شده توسط آزمایشگرهای انسانی را با گزینه انتخاب شده توسط GPT-4 مقایسه می کنیم.