ساده سازی بلوک های ترانسفورماتور: کارهای مرتبط

نویسندگان:

(1) بابی هی، دپارتمان علوم کامپیوتر، ETH زوریخ (مکاتبه با: [email protected].)؛

(2) توماس هافمن، گروه علوم کامپیوتر، ETH زوریخ.

چکیده و مقدمه

کار مرتبط

مقدماتی

ساده سازی بلوک های ترانسفورماتور

تجزیه و تحلیل تجربی بیشتر

بحث، بیانیه تکرارپذیری، قدردانی و مراجع

دوگانگی بین به روز رسانی های کم وزن باقیمانده و محدود کننده در لایه های خطی

طرح بندی بلوک B

C آزمایش های اضافی

D جزئیات پیاده سازی

ساده سازی NN های عمیق با حذف اجزای بلوک، هم در ترانسفورماتورها و هم در معماری های دیگر توجه زیادی را به خود جلب کرده است. در این آثار، نظریه انتشار سیگنال اغلب به عنوان الهام عمل می کند.

نشان داده شده است که استفاده عاقلانه از مقدار دهی اولیه وزن و ابزارهای معماری، مانند اتصالات پرش و لایه های نرمال سازی، می تواند انحطاط انتشار سیگنال و قابلیت آموزش NN های عمیق را بهبود بخشد. چنین ملاحظاتی باعث ایجاد تغییرات اصولی با معماری های ساده تر شده است. De & Smith (2020) نشان می دهد که مکانیسم ضمنی اتصالات پرش Pre-LN کاهش وزن شاخه باقیمانده نسبت به شاخه پرش است که منجر به انتشار بهتر سیگنال می شود. آنها همچنین نشان می دهند که کاهش وزن صریح شاخه باقیمانده اجازه می دهد تا لایه های عادی سازی …

Source link