Orca 2: تقویت استدلال در مدل های زبانی کوچکتر – درخواست های مورد استفاده در ارزیابی

:::اطلاعات
نویسندگان:

(1) آریندام میترا;

(2) لوچیانو دل کورو، کاری که در زمان حضور در مایکروسافت انجام شد.

(3) شوتی ماهاجان، کاری که در مایکروسافت انجام شد.

(4) آندرس کوداس، نشان دهنده مشارکت های برابر است.

(5) Clarisse Simoes، نشان دهنده مشارکت های برابر است.

(۶) سحاج آگروال;

(7) Xuxi Chen، کار انجام شده در زمان مایکروسافت؛;

(8) آناستازیا رازدایبیدینا، کاری که در مایکروسافت انجام شد.

(9) اریک جونز، کاری که در مایکروسافت انجام شد.

(10) کریتی آگاروال، کاری که در مایکروسافت انجام شد.

(۱۱) حمید پلنگی;

(12) Guoqing Zheng;

(13) کوربی راست;

(14) حامد خانپور;

(15) احمد عوض.

:::

چکیده و مقدمه

مقدماتی

آموزش Orca 2 به دلیل محتاط بودن

جزییات فنی

راه اندازی آزمایشی

نتایج ارزیابی

محدودیت ها

نتیجه گیری و مراجع

الف. معیارهای زیرکار AGIEval

B. BigBench-Hard Subtask Metrics

ج. ارزیابی زمینه سازی در جمع بندی انتزاعی

د. ارزیابی ایمنی

E. دستورات مورد استفاده در ارزیابی

F. مثالی گویا از معیارهای ارزیابی و خروجی مدل مربوطه

E دستورات مورد استفاده در ارزیابی

ما لیستی از دستورات مورد استفاده برای ارزیابی را در زیر ارائه می دهیم:

\
جدول 15: جدول اعلان های مورد استفاده برای ارزیابی تمام مدل های خالی را توضیح می دهد.  دستورات ساده هستند و فقط هدفشان ارائه نکاتی در مورد قالب پاسخ به مدل ها برای بهبود تجزیه پاسخ های مدل است.  برای وظایف، که در آن سوال به عنوان یک اعلان فرمت شده است، ورودی به همان صورت استفاده می شود.  نمونه هایی از همه مجموعه داده ها در پیوست F نشان داده شده است

\

:::info این مقاله در arxiv تحت مجوز CC 4.0 موجود است.

:::

\

Source link