چه می شود اگر AI بتواند قطعات خسته کننده را پرش کند؟ محققان Google فقط این اتفاق را انجام دادند

نویسندگان:

(1) دیوید راپوسو ، Google DeepMind و با سهم برابر ؛

(2) سام ریتر ، Google DeepMind ؛

(3) Blake Richards ، Google DeepMind و دانشگاه McGill & Mila ؛

(4) تیموتی لیلیکراپ ، Google DeepMind ؛

(5) پیتر Conway Humphreys ، Google DeepMind ؛

(6) آدام سانتورو ، Google DeepMind و با سهم برابر.

یادداشت ویرایشگر: این قسمت 4 از 5 یک مطالعه است که جزئیات آن را برای کارآمدتر کردن مدلهای زبان مبتنی بر ترانسفورماتور با تخصیص پویا منابع محاسباتی ارائه می دهد. بقیه را در زیر بخوانید.

  1. مقدمه
  2. پیشینه
  3. اجرای ترانسفورماتورهای عمیق
    • 3.1 تعیین بودجه محاسبه

    • 3.2 مسیریابی در اطراف بلوک های ترانسفورماتور

    • 3.3 طرح های مسیریابی

    • 3.4 اجرای مسیریابی

    • 3.5 نمونه برداری و 3.6. روشهای آموزشی

  4. نتایج
    • 4.1 آموزش ، مقایسه ایزوفلوپ
    • 4.2 ارزیابی مجدد خودکار و 4.3. مخلوط-عمق و کارآزمایی (حالت)
  5. بحث و منابع

4. نتایج

4.1 آموزش ، مقایسه ایزوفلوپ

ما ابتدا مدلهایی را با بودجه فلاپ نسبتاً کوچک (6E18) آموزش دادیم تا هاپرپارامترهای بهینه را تعیین کنیم (شکل 3 را ببینید). به طور کلی ، ما دریافتیم که ترانسفورماتورهای MOD منحنی ایزوفلوپ پایه را “پایین و به سمت راست” می کشند. یعنی ترانسفورماتور بهینه MOD از دست دادن پایین تر از پایه بهینه دست می یابد ، و همچنین بیشتر …

Source link