پرده برداری از قدرت خود توجهی برای پیش بینی هزینه حمل و نقل: روش شناسی

نویسندگان:

(1) P Aditya Sreekar، آمازون و این نویسندگان به طور مساوی به این کار کمک کردند {[email protected]};

(2) Sahil Verm، آمازون و این نویسندگان به طور مساوی در این کار کمک کردند {[email protected];}

(3) وارون ماداوان، موسسه فناوری هند، خاراگپور. کارهای انجام شده در حین کارآموزی در آمازون {[email protected]};

(4) آبیشک پرساد، آمازون {[email protected]}.

3. روش شناسی

3.1. بیان مسأله

3.2. زمینه

معماری ترانسفورماتور (واسوانی و همکاران، 2017) با انباشتن چندین بلوک رمزگذار ساخته شده است، که در آن هر بلوک دنباله ای از جاسازی ها را به عنوان ورودی می گیرد و دنباله ای از جاسازی های آگاه از زمینه را به بیرون می دهد. بلوک رمزگذار از یک لایه خودتوجهی چند سر (MHSA) تشکیل شده است که به دنبال آن یک لایه پیش‌خور از نظر موقعیت، با اتصالات باقی‌مانده و هنجار لایه قبل از هر لایه. لایه MHSA شامل چندین واحد خودتوجهی به نام هد است که تعاملات بین جاسازی‌های ورودی را یاد می‌گیرد.

سپس توالی خروجی به صورت بازگشتی از لایه‌های رمزگذار بعدی عبور داده می‌شود و به هر لایه متوالی اجازه می‌دهد تا تعاملات ویژگی‌های مرتبه بالاتر را بیاموزد. عمق ترانسفورماتور پیچیدگی نمایش آموخته شده را کنترل می کند، زیرا لایه های عمیق تر تعاملات پیچیده تری را بین ویژگی ها ثبت می کنند. علاوه بر این، چندین …

Source link