Orca 2: تقویت استدلال در مدل های زبانی کوچکتر – معیارهای زیرکار AGIEval

نویسندگان:

(1) آریندام میترا;

(2) لوچیانو دل کورو، کاری که در زمان حضور در مایکروسافت انجام شد.

(3) شوتی ماهاجان، کاری که در مایکروسافت انجام شد.

(4) آندرس کوداس، نشان دهنده مشارکت های برابر است.

(5) Clarisse Simoes، نشان دهنده مشارکت های برابر است.

(۶) سحاج آگروال;

(7) Xuxi Chen، کار انجام شده در زمان مایکروسافت؛;

(8) آناستازیا رازدایبیدینا، کاری که در مایکروسافت انجام شد.

(9) اریک جونز، کاری که در مایکروسافت انجام شد.

(10) کریتی آگاروال، کاری که در مایکروسافت انجام شد.

(۱۱) حمید پلنگی;

(12) Guoqing Zheng;

(13) کوربی راست;

(14) حامد خانپور;

(15) احمد عوض.

چکیده و مقدمه

مقدماتی

آموزش Orca 2 به دلیل محتاط بودن

جزییات فنی

راه اندازی آزمایشی

نتایج ارزیابی

محدودیت ها

نتیجه گیری و مراجع

الف. معیارهای زیرکار AGIEval

B. BigBench-Hard Subtask Metrics

ج. ارزیابی زمینه سازی در جمع بندی انتزاعی

د. ارزیابی ایمنی

E. دستورات مورد استفاده در ارزیابی

F. مثالی گویا از معیارهای ارزیابی و خروجی مدل مربوطه

معیارهای زیرکار AGIEval

AGIEval شامل چندین کار انگلیسی چندگزینه ای است. جدول 6 عملکرد Orca 2 و مدل های پایه را بر روی هر یک از وظایف AGIEval ارائه می دهد. عملکرد کار با استفاده از دقت تطابق دقیق، با رعایت متدولوژی ارائه شده در سنجیده می شود [69].

جدول 6: عملکرد Zero-Shot مدل های Orca 2 در مقایسه با سایر خطوط پایه در وظایف محک AGIEval.جدول 6: عملکرد Zero-Shot مدل های Orca 2 در مقایسه با سایر خطوط پایه در وظایف محک AGIEval.

مدل Orca 2 …

Source link