نویسندگان:
(1) دیوید راپوسو ، Google DeepMind و با سهم برابر ؛
(2) سام ریتر ، Google DeepMind ؛
(3) Blake Richards ، Google DeepMind و دانشگاه McGill & Mila ؛
(4) تیموتی لیلیکراپ ، Google DeepMind ؛
(5) پیتر Conway Humphreys ، Google DeepMind ؛
(6) آدام سانتورو ، Google DeepMind و با سهم برابر.
یادداشت ویرایشگر: این قسمت 4 از 5 یک مطالعه است که جزئیات آن را برای کارآمدتر کردن مدلهای زبان مبتنی بر ترانسفورماتور با تخصیص پویا منابع محاسباتی ارائه می دهد. بقیه را در زیر بخوانید.
جدول پیوندها
- مقدمه
- پیشینه
- اجرای ترانسفورماتورهای عمیق
-
3.1 تعیین بودجه محاسبه
-
3.2 مسیریابی در اطراف بلوک های ترانسفورماتور
-
3.3 طرح های مسیریابی
-
3.4 اجرای مسیریابی
-
3.5 نمونه برداری و 3.6. روشهای آموزشی
-
- نتایج
- 4.1 آموزش ، مقایسه ایزوفلوپ
- 4.2 ارزیابی مجدد خودکار و 4.3. مخلوط-عمق و کارآزمایی (حالت)
- بحث و منابع
4. نتایج
4.1 آموزش ، مقایسه ایزوفلوپ
ما ابتدا مدلهایی را با بودجه فلاپ نسبتاً کوچک (6E18) آموزش دادیم تا هاپرپارامترهای بهینه را تعیین کنیم (شکل 3 را ببینید). به طور کلی ، ما دریافتیم که ترانسفورماتورهای MOD منحنی ایزوفلوپ پایه را “پایین و به سمت راست” می کشند. یعنی ترانسفورماتور بهینه MOD از دست دادن پایین تر از پایه بهینه دست می یابد ، و همچنین بیشتر …