ارزیابی انسانی مدل های بزرگ صوتی-زبانی

نویسندگان:

(1) کیان یانگ، دانشگاه ژجیانگ، مشارکت برابر. این کار در طول دوره کارآموزی کیان یانگ در گروه علی بابا انجام شد.

(2) جین خو، گروه علی بابا، مشارکت برابر؛

(3) ونروی لیو، دانشگاه ژجیانگ؛

(4) یونفی چو، گروه علی بابا؛

(5) Xiaohuan Zhou، Alibaba Group;

(6) Yichong Leng، Alibaba Group.

(7) یوانجون لو، گروه علی بابا؛

(8) ژو ژائو، گروه علی بابا و مربوط به ژو ژائو ([email protected])

(9) Yichong Leng، دانشگاه ژجیانگ

(10) چانگ ژو، گروه علی بابا و مربوط به چانگ ژو ([email protected])

(11) جینگرن ژو، گروه علی بابا.

چکیده و 1. مقدمه

2 کارهای مرتبط

3 AIR-Bench و 3.1 نمای کلی

3.2 معیار پایه

3.3 معیار چت

3.4 استراتژی ارزیابی

4 آزمایش

4.1 مدل ها

4.2 نتایج اصلی

4.3 ارزیابی انسانی و 4.4 مطالعه فرسایش سوگیری موقعیت

5 نتیجه گیری و مراجع

نتایج تفصیلی معیار پایه

4.3 ارزیابی انسانی

برای ارزیابی سازگاری بین ارزیابی های GPT-4 و قضاوت های انسانی، ما طراحی می کنیم

شکل 4: آزمایش های ارزیابی انسان و سوگیری موقعیت ارزیاب GPT-4. شکل (الف) و (ب) به ترتیب نتایج سازگاری بین ارزیاب GPT-4 و قضاوت انسان در مورد معیار پایه و معیار چت است. شکل (ج) به نتیجه نمرات با مبادله موقعیت فرضیه و مرجع در حین ارزیابی در معیار چت اشاره دارد.
شکل 4: آزمایش های ارزیابی انسان و سوگیری موقعیت ارزیاب GPT-4. شکل (الف) و (ب) به ترتیب نتایج سازگاری بین ارزیاب GPT-4 و قضاوت انسان در مورد معیار پایه و معیار چت است. شکل (ج) به نتیجه نمرات با مبادله موقعیت فرضیه و مرجع در حین ارزیابی در معیار چت اشاره دارد.

آزمایش‌هایی برای معیارهای بنیاد و چت. برای معیار پایه، به آزمایش‌کنندگان دستور می‌دهیم که تعیین کنند کدام گزینه با فرضیه نزدیک‌تر است. سپس گزینه انتخاب شده توسط آزمایشگرهای انسانی را با گزینه انتخاب شده توسط GPT-4 مقایسه می کنیم.

Source link