Google's Infini-Attention and SEO

گوگل یک مقاله تحقیقاتی در مورد فناوری جدیدی به نام Infini-attention منتشر کرده است که به آن اجازه می‌دهد تا حجم عظیمی از داده‌ها را با «زمینه‌های بی‌نهایت طولانی» پردازش کند و همچنین می‌تواند به راحتی در مدل‌های دیگر وارد شود تا قابلیت‌های آن‌ها را بهبود بخشد.

قسمت آخر باید مورد توجه کسانی باشد که به الگوریتم گوگل علاقه مند هستند. Infini-attention plug-and-play است، به این معنی که قرار دادن آن در مدل های دیگر، از جمله مدل هایی که توسط الگوریتم اصلی گوگل استفاده می شوند، نسبتا آسان است. بخشی در مورد “زمینه های بی نهایت طولانی” ممکن است پیامدهایی برای نحوه به روز رسانی برخی از سیستم های جستجوی Google داشته باشد.

نام مقاله پژوهشی: هیچ زمینه ای را پشت سر نگذارید: ترانسفورماتورهای متنی بی نهایت کارآمد با توجه بی نهایت

حافظه از نظر محاسباتی برای دانشجویان LLM گران است

مدل‌های زبان بزرگ (LLM) محدودیت‌هایی در مورد اینکه چه مقدار داده می‌توانند در یک زمان پردازش کنند دارند، زیرا پیچیدگی محاسباتی و استفاده از حافظه می‌تواند به طور قابل توجهی افزایش یابد. Infini-Attention به LLM این توانایی را می‌دهد تا با زمینه‌های طولانی‌تر مدیریت کند و در عین حال حافظه و قدرت پردازش مورد نیاز را کاهش دهد.

مقاله پژوهشی توضیح می دهد:

«حافظه به عنوان سنگ بنای هوش عمل می کند، زیرا محاسبات کارآمد را متناسب با زمینه های خاص امکان پذیر می کند. با این حال، ترانسفورماتورها … و LLM های مبتنی بر ترانسفورماتور … به دلیل ماهیت مکانیسم توجه، یک حافظه وابسته به زمینه محدود دارند.

در واقع، مقیاس‌بندی LLM‌ها به دنباله‌های طولانی‌تر (یعنی توکن‌های 1M) با معماری‌های استاندارد Transformer چالش برانگیز است و ارائه مدل‌های زمینه طولانی‌تر و طولانی‌تر از نظر مالی پرهزینه می‌شود.

و در جای دیگر مقاله تحقیق توضیح می دهد:

مدل‌های ترانسفورماتور فعلی به دلیل افزایش درجه دوم در هزینه‌های محاسباتی و حافظه، توانایی پردازش توالی‌های طولانی را محدود می‌کنند. هدف Infini-attention پرداختن به این مشکل مقیاس پذیری است.”

محققان این فرضیه را مطرح کردند که توجه Infini می تواند برای مدیریت توالی های بسیار طولانی با ترانسفورماتورها بدون افزایش معمول در منابع محاسباتی و حافظه مقیاس شود.

سه ویژگی مهم

Google's Infini-attention کاستی‌های مدل‌های ترانسفورماتور را با ترکیب سه ویژگی حل می‌کند که LLM‌های مبتنی بر ترانسفورماتور را قادر می‌سازد تا دنباله‌های طولانی‌تری را بدون مشکل حافظه مدیریت کنند و آنها را قادر می‌سازد تا از زمینه داده‌های قبلی در دنباله استفاده کنند و آن را با زمینه دورتر به سمت متن تطبیق دهند. انتهای سکانس

ویژگی های Infini-Attention

  • سیستم حافظه فشرده
  • توجه خطی بلند مدت
  • توجه نقابدار محلی

سیستم حافظه فشرده

Infini-attention از چیزی که سیستم حافظه فشرده نامیده می شود استفاده می کند. همانطور که داده های بیشتری وارد می شود (به عنوان بخشی از یک توالی طولانی از داده ها)، سیستم حافظه فشرده برخی از اطلاعات قدیمی را فشرده می کند تا مقدار فضای مورد نیاز برای ذخیره داده ها را کاهش دهد.

توجه خطی بلند مدت

Infini-attention همچنین از آنچه «مکانیسم‌های توجه خطی بلندمدت» نامیده می‌شود استفاده می‌کند که LLM را قادر می‌سازد تا داده‌هایی را که قبلاً در دنباله وجود دارد پردازش کند.

این برای کارهایی که زمینه در صفحه بزرگتری از داده وجود دارد مهم است. مثل این است که بتوانید یک کتاب کامل را در چارچوب تمام فصول مورد بحث قرار دهید و توضیح دهید که فصل اول چگونه با فصل دیگری در وسط کتاب ارتباط دارد.

توجه نقابدار محلی

علاوه بر توجه طولانی‌مدت، توجه Infini از آنچه که توجه ماسک‌دار محلی نامیده می‌شود نیز استفاده می‌کند. این نوع توجه، بخش‌های نزدیک (محلی) داده‌های ورودی را پردازش می‌کند، که برای پاسخ‌هایی که به بخش‌های نزدیک‌تر داده‌ها بستگی دارند، مفید است.

ترکیب توجه بلندمدت و محلی با هم به حل مشکل محدود شدن ترانسفورماتورها به مقدار داده ورودی که می تواند برای زمینه به خاطر بسپارد و استفاده کند، کمک می کند.

محققان توضیح می دهند:

Infini-attention یک حافظه فشرده را در مکانیسم توجه وانیلی گنجانده است و در یک بلوک ترانسفورماتور هم توجه محلی پوشانده شده و هم مکانیسم های توجه خطی بلند مدت را ایجاد می کند.

نتایج آزمایش ها و آزمایش ها

Infini-attention با مدل‌های معمولی برای مقایسه در بین معیارهای چندگانه شامل توالی‌های ورودی طولانی، مانند مدل‌سازی زبان متن طولانی، بازیابی کلید عبور، و وظایف خلاصه‌سازی کتاب، آزمایش شد. بازیابی رمز عبور آزمایشی است که در آن مدل زبان باید داده های خاصی را از داخل یک دنباله متن بسیار طولانی بازیابی کند.

لیست سه آزمون:

  1. مدل سازی زبان با زمینه طولانی
  2. تست رمز عبور
  3. خلاصه کتاب

مدل سازی زبان با زمینه طولانی و امتیاز گیجی

محققان می‌نویسند که مدل‌های با توجه Infini عملکرد بهتری نسبت به مدل‌های پایه داشتند و افزایش طول توالی تمرین باعث بهبود بیشتر در نمره گیجی. نمره گیجی معیاری است که عملکرد مدل زبان را اندازه گیری می کند و نمرات پایین تر نشان دهنده عملکرد بهتر است.

محققان یافته های خود را به اشتراک گذاشتند:

Infini-Transformer عملکرد بهتری از Transformer-XL و Memorizing Transformers دارد در حالی که 114 برابر پارامترهای حافظه کمتری نسبت به مدل Memorizing Transformer با حافظه KV مبتنی بر بازیابی برداری با طول 65K در لایه نهم حفظ می کند. Infini-Transformer از ترانسفورماتورهای حافظه با طول حافظه 65K بهتر عمل می کند و نسبت تراکم 114x را به دست می آورد.

ما بیشتر طول دنباله آموزش را از 32K به 100K افزایش دادیم و مدل ها را بر روی مجموعه داده Arxiv-math آموزش دادیم. آموزش 100K امتیاز گیجی را به 2.21 و 2.20 برای مدل های Linear و Linear + Delta کاهش داد.

تست رمز عبور

تست کلید عبور جایی است که یک عدد تصادفی در یک دنباله متن طولانی پنهان می شود و وظیفه آن این است که مدل باید متن پنهان را واکشی کند. رمز عبور یا در نزدیکی ابتدا، وسط یا انتهای متن طولانی پنهان می شود. این مدل توانست تست رمز عبور را تا طول 1 میلیون حل کند.

یک LLM 1B به طور طبیعی به طول توالی 1M کاهش می یابد و وقتی با Infini-attention تزریق می شود، وظیفه بازیابی رمز عبور را حل می کند. Infini-Transformers با تنظیم دقیق ورودی های طول 5K، وظیفه کلید رمز را با طول زمینه تا 1M حل کرد. ما دقت بازیابی در سطح رمز را برای کلیدهای عبور پنهان شده در قسمتی متفاوت (شروع/وسط/پایان) ورودی‌های طولانی با طول‌های 32K تا 1M گزارش می‌کنیم.

تست خلاصه کتاب

Infini-attention همچنین در آزمون خلاصه کتاب با عملکرد بهتر از معیارهای برتر برای دستیابی به سطوح جدید عملکرد هنری (SOTA) سرآمد بود.

نتایج شرح داده شده است:

در نهایت، ما نشان می‌دهیم که یک مدل 8B با توجه Infini به یک نتیجه SOTA جدید در یک کار خلاصه‌نویسی کتاب 500K بعد از پیش‌آموزش مداوم و تنظیم دقیق وظایف می‌رسد.

…ما رویکرد خود را با پیش‌آموزش مداوم یک مدل LLM 8B با طول ورودی 8K برای 30K قدم، مقیاس‌بندی بیشتری کردیم. سپس یک کار خلاصه‌سازی کتاب، BookSum (Kry´sci´nski و همکاران، 2021) را به‌خوبی تنظیم کردیم که در آن هدف، ایجاد خلاصه‌ای از کل متن کتاب است.

مدل ما از بهترین نتایج قبلی بهتر عمل می کند و با پردازش کل متن از کتاب، به یک SOTA جدید در BookSum می رسد. … روند واضحی وجود دارد که نشان می دهد با متن بیشتر ارائه شده به عنوان ورودی از کتاب ها، Infini-Transformers ما معیارهای عملکرد خلاصه سازی خود را بهبود می بخشد.

مفاهیم Infini-Attention برای SEO

Infini-attention پیشرفتی در مدل سازی توجه برد بلند و کوتاه با کارایی بیشتر نسبت به مدل های قبلی بدون توجه Infini است. همچنین از “Plug-and-play مستمر پیش آموزش و انطباق با زمینه طولانی با طراحی” به این معنی که به راحتی می توان آن را در مدل های موجود ادغام کرد.

در نهایت، «پیش‌آموزشی مستمر و سازگاری طولانی مدت” آن را برای سناریوهایی ایده‌آل می‌کند که در آن جریانی از داده‌های جدید وجود دارد که دائماً برای آموزش یک مدل نیاز به افزودن دارند. قسمت آخر بسیار جالب است زیرا ممکن است برای برنامه های کاربردی در انتهای سیستم های جستجوی گوگل مفید باشد، به خصوص در مواردی که لازم است بتوان توالی های طولانی از اطلاعات را تجزیه و تحلیل کرد و ارتباط را از یک قسمت نزدیک به ابتدای دنباله درک کرد. به قسمت دیگری که به پایان نزدیکتر است.

این واقعیت که محققان ادعا می‌کنند «ورودی‌های بی‌نهایت طولانی» شگفت‌انگیز است، اما چیزی که واقعاً برای سئو مهم است این است که این مکانیسم توانایی مدیریت توالی‌های طولانی از داده‌ها به منظور «حذف هیچ زمینه‌ای» و همچنین جنبه پلاگین و بازی است. آی تی. این ایده می‌دهد که چگونه برخی از سیستم‌های Google می‌توانند بهبود یابند اگر Google توجه Infini را به سیستم‌هایی در الگوریتم اصلی خود تطبیق دهد.

مقاله تحقیق را بخوانید:

هیچ زمینه ای را پشت سر نگذارید: ترانسفورماتورهای متنی بی نهایت کارآمد با توجه بی نهایت

تصویر ویژه توسط Shutterstock/JHVEPhoto