کتاب‌های درسی تنها چیزی هستند که نیاز دارید: چکیده و مقدمه

نویسندگان:

(1) سوریا گوناسکار، تحقیقات مایکروسافت؛

(2) یی ژانگ، تحقیقات مایکروسافت.

(3) Jyoti Aneja، Microsoft Research;

(4) Caio C´esar Teodoro Mendes, Microsoft Research;

(5) Allie Del Giorno، Microsoft Research;

(6) Sivakanth Gopi، Microsoft Research;

(7) موجان جواهریپی، تحقیقات مایکروسافت;

(8) پیرو کافمن، تحقیقات مایکروسافت.

(9) Gustavo de Rosa، Microsoft Research;

(10) Olli Saarikivi، Microsoft Research;

(11) عادل سلیم، تحقیقات مایکروسافت;

(12) شیتال شاه، تحقیقات مایکروسافت;

(13) Harkirat Singh Behl, Microsoft Research;

(14) شین وانگ، تحقیقات مایکروسافت.

(15) سباستین بابک، تحقیقات مایکروسافت.

(16) Ronen Eldan، Microsoft Research;

(17) Adam Tauman Kalai، Microsoft Research;

(18) یین تات لی، تحقیقات مایکروسافت.

(19) یوانژی لی، تحقیقات مایکروسافت.

چکیده

ما phi-1 را معرفی می‌کنیم، یک مدل زبان بزرگ جدید برای کد، با اندازه قابل توجهی کوچک‌تر از مدل‌های رقیب: Phi-1 یک مدل مبتنی بر ترانسفورماتور با پارامترهای 1.3B است که به مدت 4 روز در 8 A100 آموزش داده شده است، با استفاده از مجموعه‌ای از «کتاب درسی» داده‌های با کیفیت از وب (6B توکن) و کتاب‌های درسی و تمرین‌های مصنوعی تولید شده با GPT-3.5 (توکن‌های 1B). با وجود این مقیاس کوچک، phi-1 در HumanEval 50.6% و در MBPP به 55.5% دقت پاس@1 می‌دهد. همچنین موارد اضطراری شگفت انگیز را نشان می دهد …

Source link