نویسندگان:
(1) P Aditya Sreekar، آمازون و این نویسندگان به طور مساوی به این کار کمک کردند {[email protected]};
(2) Sahil Verm، آمازون و این نویسندگان به طور مساوی در این کار کمک کردند {[email protected];}
(3) وارون ماداوان، موسسه فناوری هند، خاراگپور. کارهای انجام شده در حین کارآموزی در آمازون {[email protected]};
(4) آبیشک پرساد، آمازون {[email protected]}.
جدول پیوندها
3. روش شناسی
3.1. بیان مسأله
3.2. زمینه
معماری ترانسفورماتور (واسوانی و همکاران، 2017) با انباشتن چندین بلوک رمزگذار ساخته شده است، که در آن هر بلوک دنباله ای از جاسازی ها را به عنوان ورودی می گیرد و دنباله ای از جاسازی های آگاه از زمینه را به بیرون می دهد. بلوک رمزگذار از یک لایه خودتوجهی چند سر (MHSA) تشکیل شده است که به دنبال آن یک لایه پیشخور از نظر موقعیت، با اتصالات باقیمانده و هنجار لایه قبل از هر لایه. لایه MHSA شامل چندین واحد خودتوجهی به نام هد است که تعاملات بین جاسازیهای ورودی را یاد میگیرد.
سپس توالی خروجی به صورت بازگشتی از لایههای رمزگذار بعدی عبور داده میشود و به هر لایه متوالی اجازه میدهد تا تعاملات ویژگیهای مرتبه بالاتر را بیاموزد. عمق ترانسفورماتور پیچیدگی نمایش آموخته شده را کنترل می کند، زیرا لایه های عمیق تر تعاملات پیچیده تری را بین ویژگی ها ثبت می کنند. علاوه بر این، چندین …