مدل‌های هاوک و گریفین: عملکرد برتر NLP با حداقل داده‌های آموزشی

نویسندگان:

(1) Soham De، Google DeepMind و با مشارکت Equal.

(2) ساموئل ال. اسمیت، Google DeepMind و با مشارکت های برابر؛

(3) Anushan Fernando، Google DeepMind و با مشارکت Equal.

(4) الکساندر بوتف، Google DeepMind و با مشارکت های برابر؛

(5) جورج کریستیان مورارو، Google DeepMind و با مشارکت های برابر؛

(6) آلبرت گو، کار انجام شده در Google DeepMind.

(7) روبا هارون، گوگل دیپ مایند؛

(8) لئونارد برادا، گوگل دیپ مایند؛

(9) Yutian Chen، Google DeepMind.

(10) Srivatsan Srinivasan، Google DeepMind.

(11) Guillaume Desjardins, Google DeepMind;

(12) Arnaud Doucet، Google DeepMind.

(13) دیوید بودن، گوگل دیپ مایند؛

(14) Yee Whye Teh، Google DeepMind.

(15) دیوید بودن، گوگل دیپ مایند؛

(16) رضوان پاسکانو، گوگل دیپ مایند;

(17) Nando De Freitas، Google DeepMind.

(18) Caglar Gulcehre، Google DeepMind.

1 مقدمه

2 معماری مدل

3 مدل بازگشتی به اندازه ترانسفورماتورها کارآمد هستند

3.1. مقیاس بندی منحنی ها

3.2. ارزیابی وظایف پایین دستی

4 آموزش مدل های مکرر به طور موثر در دستگاه و 4.1. موازی سازی مدل برای آموزش در مقیاس بزرگ

4.2. عودهای خطی کارآمد در دستگاه

4.3. سرعت تمرین در سکانس های طولانی تر

5. سرعت استنتاج

5.1. یک مدل ساده از مرحله رمزگشایی

5.2. نتایج

6. Long Context Modeling و 6.1 ….

Source link