من قصد دارم این مقاله را به عنوان یک قطعه قابل تامل در مورد موضوعی که مدتی است مرا مجذوب خود کرده است.
در اوایل سال 2024، مقاله BitNet b1.58 منتشر شد و من مقاله کوتاهی در مورد آن نوشتم. ایده اصلی پشت این معماری این است که مدل های زبان بزرگ (LLM) بسیار کارآمد را می توان با استفاده از سه نوع وزن (-1، 0، 1) ساخت. (این نام از این واقعیت ناشی می شود که log2(3) = 1.58.) این به ویژه هیجان انگیز است زیرا چنین شبکه ای به ضرب نیاز ندارد – فقط به جمع های شرطی. معماریهایی مانند اینها میتوانند بدون GPU کارآمد اجرا شوند یا میتوانند روی ASIC اجرا شوند، که اجرای بسیار کارآمدتری را در مقایسه با GPUها ممکن میسازد.
تنها مشکل این راه حل این است که نمی توان آن را با استفاده از نزول گرادیان آموزش داد. تمرین همچنان بر اعداد ممیز شناور متکی است و وزن ها پس از آن برای استنتاج کوانتیزه می شوند. این باعث شد برای اولین بار تعجب کنم: آیا ممکن است نقطه ای وجود داشته باشد که استفاده از روش های بدون گرادیان به جای شیب نزول ممکن است آموزش را کارآمدتر کند؟
اما حتی اگر لحظهای این شبکههای کوانتیزه شدید را کنار بگذاریم، باز هم روند قابل توجهی وجود دارد: شکاف بین شبکههایی که برای آموزش استفاده میشوند و شبکههایی که برای استنتاج استفاده میشوند در حال افزایش است. آموزش یک مدل زبان بزرگ (LLM) از چند میلیون دلار شروع می شود. در حال حاضر، DeepSeek…