بهبود شبکه های حافظه کوتاه مدت: XLSTM برای نسل بعدی هوش مصنوعی

LSTM ها یا شبکه های حافظه کوتاه مدت طولانی مدتی است که وجود داشته اند. آنها برای چندین کار مرتبط با توالی، مانند تولید متن و ترجمه یا حتی ایجاد زیرنویس تصویر، استفاده شده اند.

اشکال آنها این است که نمی توان آنها را موازی کرد تا از پردازنده های گرافیکی قدرتمند امروزی استفاده کنند. این محدودیت راه را برای ظهور ترانسفورماتورهایی هموار کرد که از GPU ها برای موازی سازی گسترده آموزش و استنتاج استفاده می کنند.

اگر اکنون بخواهیم LSTM ها را اصلاح و موازی سازی کنیم، آیا می توانند ابزاری برای ساختن نسل بعدی LLM ها شوند؟

این دقیقاً همان سؤالی است که روزنامه به آن پاسخ داده است.XLSM – شبکه های حافظه کوتاه مدت طولانی،” که مخفف ”تمدید شده” حافظه کوتاه مدت بلند مدت. آنها این کار را با پیشنهاد دو بلوک جدید در معماری انجام می دهند، یعنی sLSTM و mLSTM.

بنابراین، بیایید به بلوک‌های پیشنهادی sLSTM و mLSTM که در این مقاله پیشنهاد شده‌اند، شیرجه بزنیم و ببینیم چگونه می‌توانیم آنها را برای توسعه معماری XLSTM کنار هم قرار دهیم.

توضیح تصویری

اگر شما هم مانند من هستید و دوست دارید XLSTM ها به صورت بصری توضیح داده شوند، لطفاً ویدیوی YouTube در این مقاله را بررسی کنید:

تجدید کننده LSTM

یکی از اولین شبکه هایی که برای مقابله با داده های متوالی طراحی شده است، شبکه عصبی بازگشتی است.

شبکه عصبی مکرر

از اتصالات مکرر در …

Source link