آه، ترانسفورماتور. این شگفتی های هوش مصنوعی دنیا را طوفان کرده است، اینطور نیست؟ از مدلهای GPT که شعر میسازند تا DALL·E که تصاویری خیرهکننده ایجاد میکند، ترانسفورماتورها به زیربنای یادگیری ماشینی مدرن تبدیل شدهاند.
اما علیرغم همه مهارتهایشان، آنها یک پاشنه آشیل دارند که تعداد کمی از محافل تحقیقاتی بیرونی درباره آن صحبت میکنند – طول دنباله. اکثر مردم تصور میکنند که این مدلها میتوانند به اندازهای که ما به آنها میفرستیم، دادهها را دریافت و پردازش کنند، اما حقیقت دور از آن است.
ترانسفورماتورها خیلی زودتر از آنچه فکرش را میکنید به سقف محاسباتی خود میرسند، و زمانی که ما سعی میکنیم آنها را برای مدیریت دنبالههای طولانی بزرگ کنیم، همه چیز تحت فشار شروع به ترک خوردن میکند. بنابراین، این سوال مطرح می شود: چگونه می توانیم از این سد عبور کنیم؟ و – بیایید صادق باشیم – آیا زمان آن نرسیده است که در نحوه برخورد خود با این موضوع به طور کامل تجدید نظر کنیم؟
قبل از اینکه جدیدترین نوآوریهای مربوط به این موضوع را بشناسیم (که برخی از آنها کاملاً درخشان هستند)، اجازه دهید لحظهای به دلیل وجود این مشکل در وهله اول نگاه کنیم. هشدار اسپویلر – همه چیز مربوط به مکانیسم توجه به خود است، همان چیزی که Transformers را در وهله اول بسیار قدرتمند می کند.
معمای درجه دوم: رابطه عشق و نفرت با توجه به خود
اغراق کردن اینکه مکانیسم توجه به خود چقدر باعث تغییر بازی برای هوش مصنوعی شده است دشوار است. این مکانیسم …