من همیشه مجذوب ایده اجرای مدل های زبان بزرگ به طور مستقیم بر روی دستگاه های کاربر بوده ام. چیزی جادویی در مورد اجرای Llama 3.1 8B، یکی از پیشرفتهترین مدلهای زبان، روی رایانه یا تلفن هوشمندتان وجود دارد.
در این پست به شما معرفی خواهم کرد
شما می توانید آن را خودتان امتحان کنید
چرا مدل 8B را انتخاب کنید؟
در حالی که اجرای مدلهای زبان روی دستگاههای کاربر جدید نیست – مدلهایی مانند Llama 3.2 1B و 3B به صراحت برای دستگاههای کم مصرف طراحی شدهاند، مدل 8B Llama فرصتی ایدهآل برای نمایش قابلیتهای الگوریتمهای فشردهسازی پیشرفته در یک محیط مرورگر است.
برای در نظر گرفتن این موضوع، بیایید به نیازهای حافظه مدل نگاه کنیم: هر پارامتر به 16 بیت در فرم غیر فشرده خود نیاز دارد، که باعث می شود مدل 8B تقریباً 16 گیگابایت باشد. روش های استاندارد فشرده سازی 4 بیتی مانند nf4 می توانند این میزان را به 4 گیگابایت کاهش دهند.
رویکرد فشرده سازی شدید ما این را فراتر می برد، با استفاده از تنها 2 بیت در هر پارامتر و فشرده سازی بدنه مدل با ضریب …