نویسندگان:
(1) دیوید راپوسو ، Google DeepMind و با سهم برابر ؛
(2) سام ریتر ، Google DeepMind ؛
(3) Blake Richards ، Google DeepMind و دانشگاه McGill & Mila ؛
(4) تیموتی لیلیکراپ ، Google DeepMind ؛
(5) پیتر Conway Humphreys ، Google DeepMind ؛
(6) آدام سانتورو ، Google DeepMind و با سهم برابر.
یادداشت ویرایشگر: این قسمت 3 از 5 از یک مطالعه است که شرح می دهد با تخصیص پویا منابع محاسباتی ، مدلهای زبان مبتنی بر ترانسفورماتور را کارآمدتر می کند. بقیه را در زیر بخوانید.
جدول پیوندها
- مقدمه
- پیشینه
- اجرای ترانسفورماتورهای عمیق
-
3.1 تعیین بودجه محاسبه
-
3.2 مسیریابی در اطراف بلوک های ترانسفورماتور
-
3.3 طرح های مسیریابی
-
3.4 اجرای مسیریابی
-
3.5 نمونه برداری و 3.6. روشهای آموزشی
-
- نتایج
- 4.1 آموزش ، مقایسه ایزوفلوپ
- 4.2 ارزیابی مجدد خودکار و 4.3. مخلوط-عمق و کارآزمایی (حالت)
- بحث و منابع
3. اجرای ترانسفورماتورهای عمیق
استراتژی سطح بالا ما به شرح زیر است:
• با محدود کردن تعداد نشانه ها در دنباله ای که می تواند در محاسبات یک بلوک شرکت کند (یعنی ، خودآگاهی و MLP متعاقب) ، بودجه محاسباتی استاتیک را که کمتر از یک ترانسفورماتور وانیل معادل است ، تعیین کنید. به عنوان مثال ، در حالی که یک ترانسفورماتور وانیل ممکن است همه …