روش جدید هوش مصنوعی اجازه می دهد تا مدل ها تصمیم بگیرند که در مورد چه چیزی فکر کنند

نویسندگان:

(1) دیوید راپوسو ، Google DeepMind و با سهم برابر ؛

(2) سام ریتر ، Google DeepMind ؛

(3) Blake Richards ، Google DeepMind و دانشگاه McGill & Mila ؛

(4) تیموتی لیلیکراپ ، Google DeepMind ؛

(5) پیتر Conway Humphreys ، Google DeepMind ؛

(6) آدام سانتورو ، Google DeepMind و با سهم برابر.

یادداشت ویرایشگر: این قسمت 2 از 5 از یک مطالعه است که جزئیات آن را برای کارآمدتر کردن مدلهای زبان مبتنی بر ترانسفورماتور با تخصیص پویا منابع محاسباتی ارائه می دهد. بقیه را در زیر بخوانید.

  1. مقدمه
  2. پیشینه
  3. اجرای ترانسفورماتورهای عمیق
    • 3.1 تعیین بودجه محاسبه

    • 3.2 مسیریابی در اطراف بلوک های ترانسفورماتور

    • 3.3 طرح های مسیریابی

    • 3.4 اجرای مسیریابی

    • 3.5 نمونه برداری و 3.6. روشهای آموزشی

  4. نتایج
    • 4.1 آموزش ، مقایسه ایزوفلوپ
    • 4.2 ارزیابی مجدد خودکار و 4.3. مخلوط-عمق و کارآزمایی (حالت)
  5. بحث و منابع

2

معماری ترانسفورماتور تبدیل به کارگاه یک انقلاب در هوش مصنوعی عملی شده است و توانایی های بی سابقه ای را با هزینه اجرای آموزش های گران قیمت و رویه های ارائه می دهد. این امر علاقه زیادی به کارآمدتر کردن معماری های ترانسفورماتور کرده است (گوپتا و آگراوال ، 2021 ؛ تای و همکاران ، 2020). یکی از امیدوار کننده …

Source link