Orca 2: تقویت استدلال در مدل های زبانی کوچکتر – راه اندازی آزمایشی

نویسندگان:

(1) آریندام میترا;

(2) لوچیانو دل کورو، کاری که در زمان حضور در مایکروسافت انجام شد.

(3) شوتی ماهاجان، کاری که در مایکروسافت انجام شد.

(4) آندرس کوداس، نشان دهنده مشارکت های برابر است.

(5) Clarisse Simoes، نشان دهنده مشارکت های برابر است.

(۶) سحاج آگروال;

(7) Xuxi Chen، کار انجام شده در زمان مایکروسافت؛;

(8) آناستازیا رازدایبیدینا، کاری که در مایکروسافت انجام شد.

(9) اریک جونز، کاری که در مایکروسافت انجام شد.

(10) کریتی آگاروال، کاری که در مایکروسافت انجام شد.

(۱۱) حمید پلنگی;

(12) Guoqing Zheng;

(13) کوربی راست;

(14) حامد خانپور;

(15) احمد عوض.

چکیده و مقدمه

مقدماتی

آموزش Orca 2 به دلیل محتاط بودن

جزییات فنی

راه اندازی آزمایشی

نتایج ارزیابی

محدودیت ها

نتیجه گیری و مراجع

الف. معیارهای زیرکار AGIEval

B. BigBench-Hard Subtask Metrics

ج. ارزیابی زمینه سازی در جمع بندی انتزاعی

د. ارزیابی ایمنی

E. دستورات مورد استفاده در ارزیابی

F. مثالی گویا از معیارهای ارزیابی و خروجی مدل مربوطه

5 راه اندازی آزمایشی

5.1 خطوط پایه

ما Orca 2 را در کنار چندین مدل پیشرفته محک می زنیم. همه مدل‌های پایه، مدل‌های تنظیم‌شده با دستورالعمل هستند. ما از نسخه‌های تنظیم‌شده با دستورالعمل استفاده می‌کنیم، زیرا نشان داده شده است که در پیروی از دستورالعمل‌ها بسیار بهتر عمل می‌کنند، قابلیت‌های استدلال قوی‌تری دارند و…

Source link