نویسندگان:
(1) دیوید راپوسو ، Google DeepMind و با سهم برابر ؛
(2) سام ریتر ، Google DeepMind ؛
(3) Blake Richards ، Google DeepMind و دانشگاه McGill & Mila ؛
(4) تیموتی لیلیکراپ ، Google DeepMind ؛
(5) پیتر Conway Humphreys ، Google DeepMind ؛
(6) آدام سانتورو ، Google DeepMind و با سهم برابر.
یادداشت ویرایشگر: این قسمت 2 از 5 از یک مطالعه است که جزئیات آن را برای کارآمدتر کردن مدلهای زبان مبتنی بر ترانسفورماتور با تخصیص پویا منابع محاسباتی ارائه می دهد. بقیه را در زیر بخوانید.
جدول پیوندها
- مقدمه
- پیشینه
- اجرای ترانسفورماتورهای عمیق
-
3.1 تعیین بودجه محاسبه
-
3.2 مسیریابی در اطراف بلوک های ترانسفورماتور
-
3.3 طرح های مسیریابی
-
3.4 اجرای مسیریابی
-
3.5 نمونه برداری و 3.6. روشهای آموزشی
-
- نتایج
- 4.1 آموزش ، مقایسه ایزوفلوپ
- 4.2 ارزیابی مجدد خودکار و 4.3. مخلوط-عمق و کارآزمایی (حالت)
- بحث و منابع
2
معماری ترانسفورماتور تبدیل به کارگاه یک انقلاب در هوش مصنوعی عملی شده است و توانایی های بی سابقه ای را با هزینه اجرای آموزش های گران قیمت و رویه های ارائه می دهد. این امر علاقه زیادی به کارآمدتر کردن معماری های ترانسفورماتور کرده است (گوپتا و آگراوال ، 2021 ؛ تای و همکاران ، 2020). یکی از امیدوار کننده …