Google DeepMind یک مقاله تحقیقاتی منتشر کرد که مدل زبانی به نام RecurrentGemma را پیشنهاد میکند که میتواند با عملکرد مدلهای مبتنی بر ترانسفورماتور مطابقت داشته باشد یا از آن فراتر رود و در عین حال کارآمدتر حافظه باشد، و نوید عملکرد مدل زبان بزرگ را در محیطهای محدود با منابع ارائه میدهد.
مقاله پژوهشی مروری کوتاه ارائه می دهد:
ما RecurrentGemma را معرفی میکنیم، یک مدل زبان باز که از معماری جدید Google Griffin استفاده میکند. گریفین تکرارهای خطی را با توجه محلی ترکیب می کند تا به عملکرد عالی در زبان دست یابد. دارای یک حالت با اندازه ثابت است که استفاده از حافظه را کاهش می دهد و استنتاج کارآمد را در توالی های طولانی امکان پذیر می کند. ما یک مدل از پیش آموزش دیده با 2B پارامتر غیر تعبیهشده و یک نوع تنظیمشده دستورالعمل ارائه میکنیم. هر دو مدل با وجود آموزش روی توکن های کمتر، عملکرد قابل مقایسه ای با Gemma-2B دارند.
اتصال به جما
Gemma یک مدل باز است که از فناوری Gemini درجه برتر Google استفاده می کند، اما سبک وزن است و می تواند روی لپ تاپ و دستگاه های تلفن همراه اجرا شود. مشابه Gemma، RecurrentGemma همچنین میتواند در محیطهای با منابع محدود عمل کند. شباهت های دیگر بین Gemma و RecurrentGemma در داده های قبل از آموزش، تنظیم دستورالعمل و RLHF (یادگیری تقویتی از بازخورد انسانی) است. RLHF راهی برای استفاده از بازخورد انسانی برای آموزش یک مدل برای یادگیری به تنهایی، برای هوش مصنوعی مولد است.
معماری گریفین
مدل جدید مبتنی بر مدل هیبریدی به نام گریفین است که چند ماه پیش معرفی شد. گریفین یک مدل ترکیبی نامیده میشود زیرا از دو نوع فناوری استفاده میکند، یکی که به آن اجازه میدهد به طور موثر توالیهای طولانی اطلاعات را مدیریت کند و دیگری به آن اجازه میدهد بر روی جدیدترین بخشهای ورودی تمرکز کند، که به آن توانایی پردازش میدهد. داده های “به طور قابل توجهی” بیشتر (افزایش توان عملیاتی) در همان بازه زمانی مدل های مبتنی بر ترانسفورماتور و همچنین کاهش زمان انتظار (تاخیر).
مقاله تحقیقاتی گریفین دو مدل را پیشنهاد کرد، یکی به نام هاوک و دیگری به نام گریفین. مقاله تحقیقاتی گریفین توضیح می دهد که چرا این یک پیشرفت است:
ما به طور تجربی مزایای زمان استنتاج هاوک و گریفین را تأیید می کنیم و تاخیر کاهش یافته و توان عملیاتی قابل توجهی را در مقایسه با خطوط پایه ترانسفورماتور خود افزایش می دهیم. در نهایت، هاوک و گریفین توانایی برون یابی را در توالی های طولانی تر از آنچه در آن آموزش داده شده است نشان می دهند و قادر به یادگیری موثر کپی و بازیابی داده ها در افق های طولانی هستند. این یافتهها قویاً نشان میدهند که مدلهای پیشنهادی ما یک جایگزین قدرتمند و کارآمد برای ترانسفورماتورها با توجه جهانی ارائه میدهند.
تفاوت بین Griffin و RecurrentGemma در یک اصلاح مربوط به نحوه پردازش داده های ورودی (جاسازی های ورودی) توسط مدل است.
پیشرفت ها
مقاله تحقیقاتی بیان میکند که RecurrentGemma عملکرد مشابه یا بهتری نسبت به مدل معمولی ترانسفورماتور Gemma-2b (که بر روی 3 تریلیون توکن در مقابل 2 تریلیون برای RecurrentGemma آموزش داده شد) ارائه میکند. این بخشی از دلیلی است که مقاله تحقیقاتی تحت عنوان “مدل های ترانسفورماتور متحرک گذشته” نامگذاری شده است زیرا راهی برای دستیابی به عملکرد بالاتر بدون سربار منابع بالای معماری ترانسفورماتور نشان می دهد.
یکی دیگر از موفقیتهای مدلهای ترانسفورماتور، کاهش استفاده از حافظه و زمان پردازش سریعتر است. مقاله پژوهشی توضیح می دهد:
“یک مزیت کلیدی RecurrentGemma این است که اندازه حالت به طور قابل توجهی کوچکتر از ترانسفورماتورهای روی دنباله های طولانی دارد. در حالی که حافظه نهان KV Gemma متناسب با طول دنباله رشد می کند، وضعیت RecurrentGemma محدود است و در توالی های طولانی تر از اندازه پنجره توجه محلی 2k توکن افزایش نمی یابد. در نتیجه، در حالی که طولانیترین نمونهای که میتواند به صورت خودکار توسط Gemma تولید شود، توسط حافظه موجود در میزبان محدود میشود، RecurrentGemma میتواند دنبالههایی با طول دلخواه تولید کند.
RecurrentGemma همچنین مدل ترانسفورماتور Gemma را در توان عملیاتی شکست می دهد (مقدار داده ای که می تواند پردازش شود، بالاتر، بهتر است). توان عملیاتی مدل ترانسفورماتور با طول دنبالههای بالاتر (افزایش تعداد نشانهها یا کلمات) رنج میبرد، اما در مورد RecurrentGemma که قادر به حفظ توان عملیاتی بالایی است، چنین نیست.
مقاله پژوهشی نشان می دهد:
«در شکل 1a، توان عملیاتی بهدستآمده در هنگام نمونهبرداری از یک دستور 2k توکن را برای طیفی از طولهای نسل رسم میکنیم. توان عملیاتی حداکثر تعداد توکن هایی را که می توانیم در هر ثانیه در یک دستگاه TPUv5e نمونه برداری کنیم، محاسبه می کند.
… RecurrentGemma به توان عملیاتی بالاتری در تمام طول های دنباله در نظر گرفته می رسد. توان به دست آمده توسط RecurrentGemma با افزایش طول دنباله کاهش نمی یابد، در حالی که توان به دست آمده توسط Gemma با افزایش حافظه پنهان کاهش می یابد.
محدودیت های RecurrentGemma
مقاله تحقیقاتی نشان میدهد که این رویکرد با محدودیتهای خاص خود همراه است که در آن عملکرد در مقایسه با مدلهای ترانسفورماتور سنتی تاخیر دارد.
محققان محدودیتی را در مدیریت توالی های بسیار طولانی برجسته می کنند که مدل های ترانسفورماتور قادر به انجام آن هستند.
طبق این روزنامه:
اگرچه مدلهای RecurrentGemma برای دنبالههای کوتاهتر بسیار کارآمد هستند، اما عملکرد آنها میتواند از مدلهای ترانسفورماتور سنتی مانند Gemma-2B در هنگام مدیریت توالیهای بسیار طولانی که بیش از پنجره توجه محلی هستند، عقب بماند.
این چه معنایی برای دنیای واقعی دارد
اهمیت این رویکرد برای مدلهای زبان در این است که نشان میدهد راههای دیگری برای بهبود عملکرد مدلهای زبانی وجود دارد و در عین حال از منابع محاسباتی کمتری در معماریای که مدل ترانسفورماتور نیست، استفاده میشود. این همچنین نشان میدهد که یک مدل غیر ترانسفورماتور میتواند بر یکی از محدودیتهای اندازههای حافظه پنهان مدل ترانسفورماتور که تمایل به افزایش استفاده از حافظه را دارد، غلبه کند.
این میتواند به کاربردهای مدلهای زبانی در آینده نزدیک منجر شود که میتوانند در محیطهای با منابع محدود عمل کنند.
مقاله تحقیقاتی Google DeepMind را بخوانید:
RecurrentGemma: Moving Past Transformers for Efficient Language Open Models (PDF)
تصویر ویژه توسط Shutterstock/Photo For Everything