این هک هوش مصنوعی هوشمند می تواند هزینه های پردازش را به نصف کاهش دهد

نویسندگان:

(1) دیوید راپوسو ، Google DeepMind و با سهم برابر ؛

(2) سام ریتر ، Google DeepMind ؛

(3) Blake Richards ، Google DeepMind و دانشگاه McGill & Mila ؛

(4) تیموتی لیلیکراپ ، Google DeepMind ؛

(5) پیتر Conway Humphreys ، Google DeepMind ؛

(6) آدام سانتورو ، Google DeepMind و با سهم برابر.

یادداشت ویرایشگر: این قسمت 3 از 5 از یک مطالعه است که شرح می دهد با تخصیص پویا منابع محاسباتی ، مدلهای زبان مبتنی بر ترانسفورماتور را کارآمدتر می کند. بقیه را در زیر بخوانید.

  1. مقدمه
  2. پیشینه
  3. اجرای ترانسفورماتورهای عمیق
    • 3.1 تعیین بودجه محاسبه

    • 3.2 مسیریابی در اطراف بلوک های ترانسفورماتور

    • 3.3 طرح های مسیریابی

    • 3.4 اجرای مسیریابی

    • 3.5 نمونه برداری و 3.6. روشهای آموزشی

  4. نتایج
    • 4.1 آموزش ، مقایسه ایزوفلوپ
    • 4.2 ارزیابی مجدد خودکار و 4.3. مخلوط-عمق و کارآزمایی (حالت)
  5. بحث و منابع

3. اجرای ترانسفورماتورهای عمیق

استراتژی سطح بالا ما به شرح زیر است:

• با محدود کردن تعداد نشانه ها در دنباله ای که می تواند در محاسبات یک بلوک شرکت کند (یعنی ، خودآگاهی و MLP متعاقب) ، بودجه محاسباتی استاتیک را که کمتر از یک ترانسفورماتور وانیل معادل است ، تعیین کنید. به عنوان مثال ، در حالی که یک ترانسفورماتور وانیل ممکن است همه …

Source link