چگونه آموزش بدون گرادیان می تواند هوش مصنوعی را غیرمتمرکز کند؟

من قصد دارم این مقاله را به عنوان یک قطعه قابل تامل در مورد موضوعی که مدتی است مرا مجذوب خود کرده است.

در اوایل سال 2024، مقاله BitNet b1.58 منتشر شد و من مقاله کوتاهی در مورد آن نوشتم. ایده اصلی پشت این معماری این است که مدل های زبان بزرگ (LLM) بسیار کارآمد را می توان با استفاده از سه نوع وزن (-1، 0، 1) ساخت. (این نام از این واقعیت ناشی می شود که log2(3) = 1.58.) این به ویژه هیجان انگیز است زیرا چنین شبکه ای به ضرب نیاز ندارد – فقط به جمع های شرطی. معماری‌هایی مانند این‌ها می‌توانند بدون GPU کارآمد اجرا شوند یا می‌توانند روی ASIC اجرا شوند، که اجرای بسیار کارآمدتری را در مقایسه با GPU‌ها ممکن می‌سازد.

تنها مشکل این راه حل این است که نمی توان آن را با استفاده از نزول گرادیان آموزش داد. تمرین همچنان بر اعداد ممیز شناور متکی است و وزن ها پس از آن برای استنتاج کوانتیزه می شوند. این باعث شد برای اولین بار تعجب کنم: آیا ممکن است نقطه ای وجود داشته باشد که استفاده از روش های بدون گرادیان به جای شیب نزول ممکن است آموزش را کارآمدتر کند؟

اما حتی اگر لحظه‌ای این شبکه‌های کوانتیزه شدید را کنار بگذاریم، باز هم روند قابل توجهی وجود دارد: شکاف بین شبکه‌هایی که برای آموزش استفاده می‌شوند و شبکه‌هایی که برای استنتاج استفاده می‌شوند در حال افزایش است. آموزش یک مدل زبان بزرگ (LLM) از چند میلیون دلار شروع می شود. در حال حاضر، DeepSeek…

Source link