نویسندگان:
(1) دیوید راپوسو ، Google DeepMind و با سهم برابر ؛
(2) سام ریتر ، Google DeepMind ؛
(3) Blake Richards ، Google DeepMind و دانشگاه McGill & Mila ؛
(4) تیموتی لیلیکراپ ، Google DeepMind ؛
(5) پیتر Conway Humphreys ، Google DeepMind ؛
(6) آدام سانتورو ، Google DeepMind و با سهم برابر.
یادداشت ویرایشگر: این قسمت 1 از 5 یک مطالعه است که شرح می دهد با تخصیص پویا منابع محاسباتی ، مدلهای زبان مبتنی بر ترانسفورماتور را کارآمدتر می کند. بقیه را در زیر بخوانید.
جدول پیوندها
- مقدمه
- پیشینه
- اجرای ترانسفورماتورهای عمیق
-
3.1 تعیین بودجه محاسبه
-
3.2 مسیریابی در اطراف بلوک های ترانسفورماتور
-
3.3 طرح های مسیریابی
-
3.4 اجرای مسیریابی
-
3.5 نمونه برداری و 3.6. روشهای آموزشی
-
- نتایج
- 4.1 آموزش ، مقایسه ایزوفلوپ
- 4.2 ارزیابی مجدد خودکار و 4.3. مخلوط-عمق و کارآزمایی (حالت)
- بحث و منابع
مدل های زبان مبتنی بر ترانسفورماتور فلاپ ها را به طور یکنواخت در توالی های ورودی پخش می کنند. در این کار نشان می دهیم که ترانسفورماتورها می توانند به جای آن یاد بگیرند که به صورت پویا فلاپ ها (یا محاسبه) را به موقعیت های خاص در یک دنباله اختصاص دهند و تخصیص در طول دنباله برای لایه های مختلف در عمق مدل را بهینه می کنند. روش ما بودجه محاسباتی را با درپوش زدن به تعداد …