پنجره زمینه طولانی چیست؟ مهندسان Google DeepMind توضیح می دهند

دیروز ما نسل بعدی مدل Gemini خود را معرفی کردیم: Gemini 1.5. علاوه بر پیشرفت‌های بزرگ در سرعت و کارایی، یکی از نوآوری‌های Gemini 1.5 پنجره زمینه طولانی آن است که تعداد توکن‌ها را اندازه‌گیری می‌کند – کوچک‌ترین بلوک‌های سازنده، مانند بخشی از یک کلمه، تصویر یا ویدیو. که مدل می تواند یکباره پردازش کند. برای کمک به درک اهمیت این نقطه عطف، از تیم پروژه Google DeepMind خواستیم تا توضیح دهند که پنجره‌های زمینه طولانی چیست و چگونه این ویژگی آزمایشی موفقیت‌آمیز می‌تواند از جهات مختلف به توسعه‌دهندگان کمک کند.

پنجره های زمینه مهم هستند زیرا به مدل های هوش مصنوعی کمک می کنند تا اطلاعات را در طول یک جلسه به خاطر بیاورند. آیا تا به حال شده است که نام کسی را چند دقیقه پس از گفتن در میان مکالمه فراموش کرده باشید یا به سرعت در اتاقی بگردید تا دفترچه ای بردارید و شماره تلفنی را که به تازگی به شما داده شده یادداشت کنید؟ به خاطر سپردن چیزها در جریان مکالمه می تواند برای مدل های هوش مصنوعی نیز مشکل باشد – ممکن است تجربه ای داشته باشید که یک ربات چت پس از چند چرخش اطلاعات را فراموش کرده است. اینجاست که پنجره‌های زمینه طولانی می‌توانند کمک کنند.

پیش از این، Gemini می‌توانست تا 32000 توکن را همزمان پردازش کند، اما 1.5 Pro – اولین مدل 1.5 که برای آزمایش اولیه منتشر می‌کنیم – دارای یک پنجره زمینه حداکثر 1 است. میلیون توکن‌ها طولانی‌ترین پنجره زمینه از هر مدل پایه در مقیاس بزرگ تا به امروز است. در واقع، ما حتی تا 10 میلیون توکن را در تحقیقات خود با موفقیت آزمایش کرده‌ایم. و هر چه پنجره زمینه طولانی‌تر باشد، یک مدل می‌تواند متن، تصاویر، صدا، کد یا ویدیو بیشتری دریافت و پردازش کند.

نیکولای ساوینوف، دانشمند تحقیقاتی گوگل دیپ مایند، یکی از مدیران تحقیقاتی پروژه زمینه طولانی، می‌گوید: «برنامه اولیه ما دستیابی به 128000 توکن در زمینه بود، و فکر می‌کردم تعیین یک نوار بلندپروازانه خوب است، بنابراین 1 میلیون توکن را پیشنهاد کردم. “و اکنون ما حتی در تحقیقات خود 10 برابر از آن پیشی گرفته ایم.”

برای انجام این نوع جهش به جلو، تیم باید یک سری از نوآوری های یادگیری عمیق انجام می داد. دنیس تپلیاشین، مهندس گوگل دیپ مایند، توضیح می دهد: «یک پیشرفت منجر به پیشرفت دیگری شد و دیگری، و هر یک از آنها فرصت های جدیدی را به وجود آورد. “و سپس، وقتی همه آنها کنار هم قرار گرفتند، ما کاملاً شگفت زده شدیم که متوجه شدیم چه کاری می توانند انجام دهند، از 128000 توکن به 512000 توکن به 1 میلیون توکن، و اخیراً 10 میلیون توکن در تحقیقات داخلی ما.”

داده های خامی که 1.5 Pro می تواند مدیریت کند، راه های کاملا جدیدی را برای تعامل با مدل باز می کند. به‌عنوان مثال، به‌جای خلاصه‌کردن یک سند در ده‌ها صفحه، می‌تواند اسناد را خلاصه کند هزاران از صفحات طولانی در جایی که مدل قدیمی می تواند به تجزیه و تحلیل هزاران خط کد کمک کند، به لطف پنجره زمینه طولانی پیشرفت، 1.5 Pro می تواند ده ها هزار خط کد را به طور همزمان تجزیه و تحلیل کند.

ماشل رید، دانشمند تحقیقاتی Google DeepMind، می‌گوید: «در یک آزمایش، ما یک پایه کد کامل را حذف کردیم و اسنادی برای آن نوشتیم که واقعاً عالی بود». و آزمایش دیگری وجود داشت که در آن توانست به سؤالات مربوط به فیلم 1924 به دقت پاسخ دهد. شرلوک جونیور بعد از اینکه کل فیلم 45 دقیقه ای را به مدل دادیم تا «تماشا کند».

1.5 Pro همچنین می تواند بین داده های ارائه شده در یک درخواست استدلال کند. ماشل می‌گوید: «یکی از نمونه‌های مورد علاقه من در چند روز گذشته، این زبان نادر «کالامنگ» است که کمتر از 200 نفر در سراسر جهان به آن صحبت می‌کنند، و یک کتابچه راهنمای دستور زبان در مورد آن وجود دارد. اگر فقط از آن بخواهید که به این زبان ترجمه شود، مدل نمی تواند به تنهایی صحبت کند، اما با پنجره زمینه طولانی گسترده، می توانید کل کتابچه راهنمای دستور زبان و چند نمونه از جملات را در متن قرار دهید، و مدل قادر به یادگیری ترجمه از انگلیسی به کالامنگ در سطحی مشابه با فردی که از همان محتوا یاد می گیرد.â€

Gemini 1.5 Pro به طور استاندارد با یک پنجره زمینه 128 هزار توکن ارائه می شود، اما گروه محدودی از توسعه دهندگان و مشتریان سازمانی می توانند آن را با پنجره زمینه تا 1 میلیون توکن از طریق AI Studio و Vertex AI در پیش نمایش خصوصی امتحان کنند. پنجره زمینه کامل 1 میلیون توکن از نظر محاسباتی فشرده است و همچنان به بهینه‌سازی‌های بیشتری برای بهبود تأخیر نیاز دارد، که با کوچک‌تر کردن آن، به‌طور فعال روی آن کار می‌کنیم.

و همانطور که تیم به آینده نگاه می کند، آنها به کار خود ادامه می دهند تا مدل را سریعتر و کارآمدتر کنند و ایمنی در هسته اصلی آن باشد. آنها همچنین به دنبال گسترش بیشتر پنجره زمینه طولانی، بهبود معماری های اساسی و ادغام بهبودهای سخت افزاری جدید هستند. “10 میلیون توکن به طور همزمان در حال حاضر نزدیک به حد حرارتی واحدهای پردازش تانسور ما است – ما هنوز نمی دانیم این محدودیت کجاست، و این مدل ممکن است با ادامه بهبود سخت افزار حتی بیشتر از این توانایی داشته باشد.” € می گوید نیکولای.

تیم مشتاق است ببیند توسعه دهندگان و جامعه گسترده تر نیز می توانند به چه نوع تجربیاتی دست یابند. ماشل می‌گوید: «وقتی برای اولین بار دیدم که یک میلیون توکن در زمینه داریم، اولین سوال من این بود، «حتی برای چه چیزی از این استفاده می‌کنید؟» “اما اکنون، من فکر می کنم تخیل مردم در حال گسترش است، و آنها راه های خلاقانه تری برای استفاده از این قابلیت های جدید پیدا خواهند کرد.”