Orca 2: تقویت استدلال در مدل های زبانی کوچکتر – مثالی از معیارها و خروجی ها

:::اطلاعات
نویسندگان:

(1) آریندام میترا;

(2) لوچیانو دل کورو، کاری که در زمان حضور در مایکروسافت انجام شد.

(3) شوتی ماهاجان، کاری که در مایکروسافت انجام شد.

(4) آندرس کوداس، نشان دهنده مشارکت های برابر است.

(5) Clarisse Simoes، نشان دهنده مشارکت های برابر است.

(۶) سحاج آگروال;

(7) Xuxi Chen، کار انجام شده در زمان مایکروسافت؛;

(8) آناستازیا رازدایبیدینا، کاری که در مایکروسافت انجام شد.

(9) اریک جونز، کاری که در مایکروسافت انجام شد.

(10) کریتی آگاروال، کاری که در مایکروسافت انجام شد.

(۱۱) حمید پلنگی;

(12) Guoqing Zheng;

(13) کوربی راست;

(14) حامد خانپور;

(15) احمد عوض.

:::

چکیده و مقدمه

مقدماتی

آموزش Orca 2 به دلیل محتاط بودن

جزییات فنی

راه اندازی آزمایشی

نتایج ارزیابی

محدودیت ها

نتیجه گیری و مراجع

الف. معیارهای زیرکار AGIEval

B. BigBench-Hard Subtask Metrics

ج. ارزیابی زمینه سازی در جمع بندی انتزاعی

د. ارزیابی ایمنی

E. دستورات مورد استفاده در ارزیابی

F. مثالی گویا از معیارهای ارزیابی و خروجی مدل مربوطه

F مثالی گویا از معیارهای ارزیابی و خروجی مدل مربوطه

Orca 2: تقویت استدلال در مدل های زبانی کوچکتر – مثالی از معیارها و خروجی ها

\
شکل 15: نمونه نمایشی از مجموعه ارزیابی DROP و پاسخ تولید شده از مدل Orca-2-13B با پیام سیستم محتاطانه.

\
شکل 16: مثال نمایشی از مجموعه ارزیابی CRASS و پاسخ تولید شده از مدل Orca-2-13B با پیام سیستم محتاطانه.

\
شکل 17: نمونه نمایشی از مجموعه ارزیابی RACE و پاسخ تولید شده از مدل Orca-2-13B با پیام سیستم محتاطانه.

\
شکل 18: نمونه نمایشی از مجموعه ارزیابی BBH و پاسخ تولید شده از مدل Orca-2-13B با پیام سیستم محتاطانه.

\
شکل 19: نمونه نمایشی از مجموعه ارزیابی GSM8k و پاسخ تولید شده از مدل Orca-2-13B با پیام سیستم محتاطانه.

\
شکل 20: مثالی نمایشی از مجموعه ارزیابی MMLU و پاسخ تولید شده از مدل Orca-2-13B با پیام سیستم محتاطانه.

\
شکل 21: نمونه نمایشی از مجموعه ارزیابی ARC-Easy و پاسخ تولید شده از مدل Orca-2-13B با پیام سیستم محتاطانه.

\
شکل 22: نمونه نمایشی از مجموعه ارزیابی چالش ARC و پاسخ تولید شده از مدل Orca-2-13B با پیام سیستم محتاطانه.

\
شکل 23: نمونه نمایشی از مجموعه ارزیابی Hellaswag و پاسخ ایجاد شده از مدل Orca-2-13B با پیام سیستم محتاطانه.

\
شکل 24: نمونه نمایشی از مجموعه ارزیابی LAMBADA و پاسخ تولید شده از مدل Orca-2-13B با پیام سیستم محتاطانه.

\
شکل 25: MT-Bench، رده علوم انسانی، نمونه 151 ارزیابی و پاسخ تولید شده از مدل Orca-2-13B با پیام سیستم محتاطانه.

\
شکل 26: مثالی نمایشی از ارزیابی ACI-BENCH.  این اعلانی است که برای خلاصه کردن مکالمه بین پزشک و بیمار استفاده می کنیم.  ما بخشی از زمینه را برجسته می کنیم که یکی از مدل ها هنگام ایجاد خلاصه، توهم را شامل می شود.

\
شکل 27: خلاصه خروجی مدل برای مثال ACI-BENCH شکل 26 تولید شده توسط Orca-2-13B.  هیچ توهم در این خروجی تشخیص داده نمی شود.

\
شکل 28: خلاصه خروجی مدل برای مثال ACI-BENCH شکل 26 که توسط Orca-2-13B w/ sm محتاط تولید شده است.  ما توهم اشاره شده توسط قاضی GPT-4 را برجسته می کنیم: اصطلاح

\
شکل 29: مثالی نمایشی از ارزیابی QMSum.  این دستوری است که برای خلاصه کردن بحث یک تیم در طول جلسه استفاده می کنیم.

\
شکل 30: خلاصه خروجی مدل برای مثال QMSum شکل 29 که توسط Orca-2-13Band Orca-2-13B w/ sm محتاط تولید شده است.  هیچ توهم در خروجی تولید شده توسط Orca-2-13B تشخیص داده نمی شود.  در حالی که Orca-2-13B می تواند حقایق را تصحیح کند، خلاصه دو واقعیت نادرست را ذکر می کند که مدیر پروژه «اول می رود» و سایر اعضای تیم حیواناتی مانند «جگر» را دنبال می کنند و ترسیم می کنند.  ما توهمات اشاره شده توسط داور GPT-4 را برجسته می کنیم.

\
شکل 31: مثالی نمایشی از ارزیابی MS-MARCO.  این اعلانی است که برای پاسخ به یک سوال بر اساس لیستی از حقایق بازیابی شده استفاده می کنیم.  گزیده هایی که منجر به توهم احتمالی می شود را بعداً برجسته می کنیم.

\
شکل 32: خلاصه خروجی مدل برای مثال ACI-BENCH شکل 31 تولید شده توسط Orca-2-13B.  هیچ توهم در این خروجی تشخیص داده نمی شود.

\
شکل 33: خلاصه خروجی مدل برای مثال MS-MARCO از شکل 31 که توسط Orca-2-13B با sm محتاط تولید شده است.  ما توهم اشاره شده توسط قاضی GPT-4 را برجسته می کنیم:

\
شکل 34: نمونه هایی از مجموعه داده ToxiGen برای وظایف MCQ و تولید محتوا از دسته های

\

:::info این مقاله در arxiv تحت مجوز CC 4.0 موجود است.

:::

\

Source link