Google DeepMind RecurrentGemma Beats Transformer Models

Google DeepMind یک مقاله تحقیقاتی منتشر کرد که مدل زبانی به نام RecurrentGemma را پیشنهاد می‌کند که می‌تواند با عملکرد مدل‌های مبتنی بر ترانسفورماتور مطابقت داشته باشد یا از آن فراتر رود و در عین حال کارآمدتر حافظه باشد، و نوید عملکرد مدل زبان بزرگ را در محیط‌های محدود با منابع ارائه می‌دهد.

مقاله پژوهشی مروری کوتاه ارائه می دهد:

ما RecurrentGemma را معرفی می‌کنیم، یک مدل زبان باز که از معماری جدید Google Griffin استفاده می‌کند. گریفین تکرارهای خطی را با توجه محلی ترکیب می کند تا به عملکرد عالی در زبان دست یابد. دارای یک حالت با اندازه ثابت است که استفاده از حافظه را کاهش می دهد و استنتاج کارآمد را در توالی های طولانی امکان پذیر می کند. ما یک مدل از پیش آموزش دیده با 2B پارامتر غیر تعبیه‌شده و یک نوع تنظیم‌شده دستورالعمل ارائه می‌کنیم. هر دو مدل با وجود آموزش روی توکن های کمتر، عملکرد قابل مقایسه ای با Gemma-2B دارند.

اتصال به جما

Gemma یک مدل باز است که از فناوری Gemini درجه برتر Google استفاده می کند، اما سبک وزن است و می تواند روی لپ تاپ و دستگاه های تلفن همراه اجرا شود. مشابه Gemma، RecurrentGemma همچنین می‌تواند در محیط‌های با منابع محدود عمل کند. شباهت های دیگر بین Gemma و RecurrentGemma در داده های قبل از آموزش، تنظیم دستورالعمل و RLHF (یادگیری تقویتی از بازخورد انسانی) است. RLHF راهی برای استفاده از بازخورد انسانی برای آموزش یک مدل برای یادگیری به تنهایی، برای هوش مصنوعی مولد است.

معماری گریفین

مدل جدید مبتنی بر مدل هیبریدی به نام گریفین است که چند ماه پیش معرفی شد. گریفین یک مدل ترکیبی نامیده می‌شود زیرا از دو نوع فناوری استفاده می‌کند، یکی که به آن اجازه می‌دهد به طور موثر توالی‌های طولانی اطلاعات را مدیریت کند و دیگری به آن اجازه می‌دهد بر روی جدیدترین بخش‌های ورودی تمرکز کند، که به آن توانایی پردازش می‌دهد. داده های “به طور قابل توجهی” بیشتر (افزایش توان عملیاتی) در همان بازه زمانی مدل های مبتنی بر ترانسفورماتور و همچنین کاهش زمان انتظار (تاخیر).

مقاله تحقیقاتی گریفین دو مدل را پیشنهاد کرد، یکی به نام هاوک و دیگری به نام گریفین. مقاله تحقیقاتی گریفین توضیح می دهد که چرا این یک پیشرفت است:

ما به طور تجربی مزایای زمان استنتاج هاوک و گریفین را تأیید می کنیم و تاخیر کاهش یافته و توان عملیاتی قابل توجهی را در مقایسه با خطوط پایه ترانسفورماتور خود افزایش می دهیم. در نهایت، هاوک و گریفین توانایی برون یابی را در توالی های طولانی تر از آنچه در آن آموزش داده شده است نشان می دهند و قادر به یادگیری موثر کپی و بازیابی داده ها در افق های طولانی هستند. این یافته‌ها قویاً نشان می‌دهند که مدل‌های پیشنهادی ما یک جایگزین قدرتمند و کارآمد برای ترانسفورماتورها با توجه جهانی ارائه می‌دهند.

تفاوت بین Griffin و RecurrentGemma در یک اصلاح مربوط به نحوه پردازش داده های ورودی (جاسازی های ورودی) توسط مدل است.

پیشرفت ها

مقاله تحقیقاتی بیان می‌کند که RecurrentGemma عملکرد مشابه یا بهتری نسبت به مدل معمولی ترانسفورماتور Gemma-2b (که بر روی 3 تریلیون توکن در مقابل 2 تریلیون برای RecurrentGemma آموزش داده شد) ارائه می‌کند. این بخشی از دلیلی است که مقاله تحقیقاتی تحت عنوان “مدل های ترانسفورماتور متحرک گذشته” نامگذاری شده است زیرا راهی برای دستیابی به عملکرد بالاتر بدون سربار منابع بالای معماری ترانسفورماتور نشان می دهد.

یکی دیگر از موفقیت‌های مدل‌های ترانسفورماتور، کاهش استفاده از حافظه و زمان پردازش سریع‌تر است. مقاله پژوهشی توضیح می دهد:

“یک مزیت کلیدی RecurrentGemma این است که اندازه حالت به طور قابل توجهی کوچکتر از ترانسفورماتورهای روی دنباله های طولانی دارد. در حالی که حافظه نهان KV Gemma متناسب با طول دنباله رشد می کند، وضعیت RecurrentGemma محدود است و در توالی های طولانی تر از اندازه پنجره توجه محلی 2k توکن افزایش نمی یابد. در نتیجه، در حالی که طولانی‌ترین نمونه‌ای که می‌تواند به صورت خودکار توسط Gemma تولید شود، توسط حافظه موجود در میزبان محدود می‌شود، RecurrentGemma می‌تواند دنباله‌هایی با طول دلخواه تولید کند.

RecurrentGemma همچنین مدل ترانسفورماتور Gemma را در توان عملیاتی شکست می دهد (مقدار داده ای که می تواند پردازش شود، بالاتر، بهتر است). توان عملیاتی مدل ترانسفورماتور با طول دنباله‌های بالاتر (افزایش تعداد نشانه‌ها یا کلمات) رنج می‌برد، اما در مورد RecurrentGemma که قادر به حفظ توان عملیاتی بالایی است، چنین نیست.

مقاله پژوهشی نشان می دهد:

«در شکل 1a، توان عملیاتی به‌دست‌آمده در هنگام نمونه‌برداری از یک دستور 2k توکن را برای طیفی از طول‌های نسل رسم می‌کنیم. توان عملیاتی حداکثر تعداد توکن هایی را که می توانیم در هر ثانیه در یک دستگاه TPUv5e نمونه برداری کنیم، محاسبه می کند.

… RecurrentGemma به توان عملیاتی بالاتری در تمام طول های دنباله در نظر گرفته می رسد. توان به دست آمده توسط RecurrentGemma با افزایش طول دنباله کاهش نمی یابد، در حالی که توان به دست آمده توسط Gemma با افزایش حافظه پنهان کاهش می یابد.

محدودیت های RecurrentGemma

مقاله تحقیقاتی نشان می‌دهد که این رویکرد با محدودیت‌های خاص خود همراه است که در آن عملکرد در مقایسه با مدل‌های ترانسفورماتور سنتی تاخیر دارد.

محققان محدودیتی را در مدیریت توالی های بسیار طولانی برجسته می کنند که مدل های ترانسفورماتور قادر به انجام آن هستند.

طبق این روزنامه:

اگرچه مدل‌های RecurrentGemma برای دنباله‌های کوتاه‌تر بسیار کارآمد هستند، اما عملکرد آن‌ها می‌تواند از مدل‌های ترانسفورماتور سنتی مانند Gemma-2B در هنگام مدیریت توالی‌های بسیار طولانی که بیش از پنجره توجه محلی هستند، عقب بماند.

این چه معنایی برای دنیای واقعی دارد

اهمیت این رویکرد برای مدل‌های زبان در این است که نشان می‌دهد راه‌های دیگری برای بهبود عملکرد مدل‌های زبانی وجود دارد و در عین حال از منابع محاسباتی کمتری در معماری‌ای که مدل ترانسفورماتور نیست، استفاده می‌شود. این همچنین نشان می‌دهد که یک مدل غیر ترانسفورماتور می‌تواند بر یکی از محدودیت‌های اندازه‌های حافظه پنهان مدل ترانسفورماتور که تمایل به افزایش استفاده از حافظه را دارد، غلبه کند.

این می‌تواند به کاربردهای مدل‌های زبانی در آینده نزدیک منجر شود که می‌توانند در محیط‌های با منابع محدود عمل کنند.

مقاله تحقیقاتی Google DeepMind را بخوانید:

RecurrentGemma: Moving Past Transformers for Efficient Language Open Models (PDF)

تصویر ویژه توسط Shutterstock/Photo For Everything