نویسندگان:
(1) دیوید راپوسو ، Google DeepMind و با سهم برابر ؛
(2) سام ریتر ، Google DeepMind ؛
(3) Blake Richards ، Google DeepMind و دانشگاه McGill & Mila ؛
(4) تیموتی لیلیکراپ ، Google DeepMind ؛
(5) پیتر Conway Humphreys ، Google DeepMind ؛
(6) آدام سانتورو ، Google DeepMind و با سهم برابر.
یادداشت ویرایشگر: این قسمت 5 از 5 از یک مطالعه است که شرح می دهد با تخصیص پویا منابع محاسباتی ، مدل های زبان مبتنی بر ترانسفورماتور را کارآمدتر می کند. بقیه را در زیر بخوانید.
جدول پیوندها
- مقدمه
- پیشینه
- اجرای ترانسفورماتورهای عمیق
-
3.1 تعیین بودجه محاسبه
-
3.2 مسیریابی در اطراف بلوک های ترانسفورماتور
-
3.3 طرح های مسیریابی
-
3.4 اجرای مسیریابی
-
3.5 نمونه برداری و 3.6. روشهای آموزشی
-
- نتایج
- 4.1 آموزش ، مقایسه ایزوفلوپ
- 4.2 ارزیابی مجدد خودکار و 4.3. مخلوط-عمق و کارآزمایی (حالت)
- بحث و منابع
5 بحث
ترانسفورماتورهای مخلوط عمق به صورت تجربی نشان می دهد که می توان عملکرد پایه بهینه ایزوفلوپ را با مدلهایی که از فلاپ های کمتری در هر پاس رو به جلو استفاده می کنند ، بهبود بخشید. این بدان معناست که – برای بودجه آموزش خاص – ما می توانیم مدل هایی را که هم سریعتر و هم بهتر از همتایان پایه خود عملکرد دارند ، آموزش دهیم. پیش از این ، برای آموزش مدل هایی که هر دو سریعتر هستند …