محدودیت طول دنباله در مدل‌های ترانسفورماتور: چگونه بر محدودیت‌های حافظه غلبه کنیم؟

آه، ترانسفورماتور. این شگفتی های هوش مصنوعی دنیا را طوفان کرده است، اینطور نیست؟ از مدل‌های GPT که شعر می‌سازند تا DALL·E که تصاویری خیره‌کننده ایجاد می‌کند، ترانسفورماتورها به زیربنای یادگیری ماشینی مدرن تبدیل شده‌اند.

اما علی‌رغم همه مهارت‌هایشان، آنها یک پاشنه آشیل دارند که تعداد کمی از محافل تحقیقاتی بیرونی درباره آن صحبت می‌کنند – طول دنباله. اکثر مردم تصور می‌کنند که این مدل‌ها می‌توانند به اندازه‌ای که ما به آن‌ها می‌فرستیم، داده‌ها را دریافت و پردازش کنند، اما حقیقت دور از آن است.

ترانسفورماتورها خیلی زودتر از آنچه فکرش را می‌کنید به سقف محاسباتی خود می‌رسند، و زمانی که ما سعی می‌کنیم آنها را برای مدیریت دنباله‌های طولانی بزرگ کنیم، همه چیز تحت فشار شروع به ترک خوردن می‌کند. بنابراین، این سوال مطرح می شود: چگونه می توانیم از این سد عبور کنیم؟ و – بیایید صادق باشیم – آیا زمان آن نرسیده است که در نحوه برخورد خود با این موضوع به طور کامل تجدید نظر کنیم؟

قبل از اینکه جدیدترین نوآوری‌های مربوط به این موضوع را بشناسیم (که برخی از آنها کاملاً درخشان هستند)، اجازه دهید لحظه‌ای به دلیل وجود این مشکل در وهله اول نگاه کنیم. هشدار اسپویلر – همه چیز مربوط به مکانیسم توجه به خود است، همان چیزی که Transformers را در وهله اول بسیار قدرتمند می کند.

معمای درجه دوم: رابطه عشق و نفرت با توجه به خود

اغراق کردن اینکه مکانیسم توجه به خود چقدر باعث تغییر بازی برای هوش مصنوعی شده است دشوار است. این مکانیسم …

Source link