Llama 3.1 8B را در مرورگر خود امتحان کنید: AQLM.rs Al را در اختیار شما قرار می دهد

من همیشه مجذوب ایده اجرای مدل های زبان بزرگ به طور مستقیم بر روی دستگاه های کاربر بوده ام. چیزی جادویی در مورد اجرای Llama 3.1 8B، یکی از پیشرفته‌ترین مدل‌های زبان، روی رایانه یا تلفن هوشمندتان وجود دارد.

در این پست به شما معرفی خواهم کرد AQLM.rs، آخرین پروژه حیوان خانگی من که Llama 3.1 8B را با استفاده از WebAssembly به مرورگر شما می آورد. این پیاده سازی توسط یک الگوریتم فشرده سازی امکان پذیر شده است تحقیق یاندکس، که به این مدل زبان پیشرفته اجازه می دهد بدون GPU مستقیماً در مرورگر شما اجرا شود.

شما می توانید آن را خودتان امتحان کنید وب سایت پروژه. حالا بیایید به نحوه عملکرد آن بپردازیم.


چرا مدل 8B را انتخاب کنید؟

در حالی که اجرای مدل‌های زبان روی دستگاه‌های کاربر جدید نیست – مدل‌هایی مانند Llama 3.2 1B و 3B به صراحت برای دستگاه‌های کم مصرف طراحی شده‌اند، مدل 8B Llama فرصتی ایده‌آل برای نمایش قابلیت‌های الگوریتم‌های فشرده‌سازی پیشرفته در یک محیط مرورگر است.

برای در نظر گرفتن این موضوع، بیایید به نیازهای حافظه مدل نگاه کنیم: هر پارامتر به 16 بیت در فرم غیر فشرده خود نیاز دارد، که باعث می شود مدل 8B تقریباً 16 گیگابایت باشد. روش های استاندارد فشرده سازی 4 بیتی مانند nf4 می توانند این میزان را به 4 گیگابایت کاهش دهند.

رویکرد فشرده سازی شدید ما این را فراتر می برد، با استفاده از تنها 2 بیت در هر پارامتر و فشرده سازی بدنه مدل با ضریب …

Source link