نویسندگان:
(1) سوریا گوناسکار، تحقیقات مایکروسافت؛
(2) یی ژانگ، تحقیقات مایکروسافت.
(3) Jyoti Aneja، Microsoft Research;
(4) Caio C´esar Teodoro Mendes, Microsoft Research;
(5) Allie Del Giorno، Microsoft Research;
(6) Sivakanth Gopi، Microsoft Research;
(7) موجان جواهریپی، تحقیقات مایکروسافت;
(8) پیرو کافمن، تحقیقات مایکروسافت.
(9) Gustavo de Rosa، Microsoft Research;
(10) Olli Saarikivi، Microsoft Research;
(11) عادل سلیم، تحقیقات مایکروسافت;
(12) شیتال شاه، تحقیقات مایکروسافت;
(13) Harkirat Singh Behl, Microsoft Research;
(14) شین وانگ، تحقیقات مایکروسافت.
(15) سباستین بابک، تحقیقات مایکروسافت.
(16) Ronen Eldan، Microsoft Research;
(17) Adam Tauman Kalai، Microsoft Research;
(18) یین تات لی، تحقیقات مایکروسافت.
(19) یوانژی لی، تحقیقات مایکروسافت.
جدول پیوندها
چکیده
ما phi-1 را معرفی میکنیم، یک مدل زبان بزرگ جدید برای کد، با اندازه قابل توجهی کوچکتر از مدلهای رقیب: Phi-1 یک مدل مبتنی بر ترانسفورماتور با پارامترهای 1.3B است که به مدت 4 روز در 8 A100 آموزش داده شده است، با استفاده از مجموعهای از «کتاب درسی» دادههای با کیفیت از وب (6B توکن) و کتابهای درسی و تمرینهای مصنوعی تولید شده با GPT-3.5 (توکنهای 1B). با وجود این مقیاس کوچک، phi-1 در HumanEval 50.6% و در MBPP به 55.5% دقت پاس@1 میدهد. همچنین موارد اضطراری شگفت انگیز را نشان می دهد …