Quantization برای یادگیری تقویتی سریع و پایدار از نظر محیطی

یادگیری تقویتی عمیق (RL) همچنان به پیشرفت های بزرگی در حل مسائل تصمیم گیری متوالی در دنیای واقعی مانند ناوبری با بالون، فیزیک هسته ای، رباتیک و بازی ها ادامه می دهد. علیرغم وعده آن، یکی از عوامل محدود کننده آن زمان طولانی تمرین است. در حالی که رویکرد فعلی برای سرعت بخشیدن به آموزش RL در کارهای پیچیده و دشوار، مقیاس آموزشی توزیع شده را تا صدها یا حتی هزاران گره محاسباتی افزایش می دهد، اما همچنان به استفاده از منابع سخت افزاری قابل توجهی نیاز دارد که آموزش RL را گران می کند و در عین حال تأثیر زیست محیطی آن را افزایش می دهد. با این حال، کار اخیر [1, 2] نشان می دهد که بهینه سازی عملکرد بر روی سخت افزار موجود می تواند ردپای کربن (یعنی کل انتشار گازهای گلخانه ای) آموزش و استنتاج را کاهش دهد.

RL همچنین می تواند از تکنیک های بهینه سازی سیستم مشابهی بهره مند شود که می تواند زمان آموزش را کاهش دهد، استفاده از سخت افزار را بهبود بخشد و دی اکسید کربن (CO) را کاهش دهد.2) انتشارات یکی از این تکنیک‌ها کوانتیزاسیون است، فرآیندی که اعداد نقطه شناور با دقت کامل (FP32) را به اعداد با دقت کمتر (int8) تبدیل می‌کند و سپس محاسبات را با استفاده از اعداد با دقت پایین‌تر انجام می‌دهد. کوانتیزاسیون می‌تواند در هزینه و پهنای باند ذخیره‌سازی حافظه برای محاسبات سریع‌تر و کارآمدتر صرفه‌جویی کند. کوانتیزاسیون با موفقیت در یادگیری تحت نظارت اعمال شده است تا امکان استقرار لبه‌های مدل‌های یادگیری ماشین (ML) و دستیابی به آموزش سریع‌تر را فراهم کند. با این حال، فرصتی برای اعمال کوانتیزاسیون در آموزش RL وجود دارد.

برای این منظور، ما “QuaRL: Quantization for Fast and Environmentally Sustainable Reinforcement Learning” را ارائه می کنیم که در نشریه معاملات تحقیق یادگیری ماشین مجله، که معرفی می کند پارادایم جدیدی به نام ActorQ که کوانتیزاسیون را برای افزایش سرعت آموزش RL بین 1.5-5.4 برابر و در عین حال حفظ عملکرد اعمال می کند. علاوه بر این، نشان می‌دهیم که در مقایسه با تمرین با دقت کامل، ردپای کربن نیز به میزان قابل توجهی با ضریب 1.9-3.8 برابر کاهش می‌یابد.

استفاده از Quantization در آموزش RL

در آموزش سنتی RL، الف یادگیرنده سیاست در مورد یک اعمال می شود بازیگر، که از این خط مشی برای کشف محیط و جمع آوری نمونه داده ها استفاده می کند. نمونه های جمع آوری شده توسط بازیگر سپس توسط یادگیرنده به طور مداوم سیاست اولیه را اصلاح کنید. به طور دوره ای، خط مشی آموزش دیده در سمت یادگیرنده برای به روز رسانی استفاده می شود بازیگران خط مشی. برای اعمال کوانتیزاسیون در آموزش RL، پارادایم ActorQ را توسعه می‌دهیم. ActorQ همان دنباله ای را انجام می دهد که در بالا توضیح داده شد، با یک تفاوت کلیدی این است که به روز رسانی خط مشی از یادگیرنده به بازیگر، کوانتیزه می شود، و بازیگر محیط را با استفاده از خط مشی کوانتیزه int8 برای جمع آوری نمونه ها بررسی می کند.

استفاده از کوانتیزاسیون در آموزش RL به این روش دو مزیت کلیدی دارد. اول، ردپای حافظه سیاست را کاهش می دهد. برای همان اوج پهنای باند، داده کمتری بین یادگیرندگان و بازیگران منتقل می‌شود، که هزینه ارتباط برای به‌روزرسانی خط‌مشی را از یادگیرندگان به بازیگران کاهش می‌دهد. دوم، بازیگران استنتاج روی خط مشی کوانتیزه شده برای ایجاد اقدامات برای یک وضعیت محیطی معین انجام می دهند. فرآیند استنتاج کوانتیزه در مقایسه با انجام استنتاج با دقت کامل بسیار سریعتر است.

مروری بر آموزش سنتی RL (ترک کرد) و آموزش ActorQ RL (درست).

در ActorQ از چارچوب RL توزیع شده ACME استفاده می کنیم. بلوک کوانتایزر کوانتیزاسیون یکنواختی را انجام می دهد که سیاست FP32 را به int8 تبدیل می کند. بازیگر استنتاج را با استفاده از محاسبات بهینه سازی شده int8 انجام می دهد. اگرچه هنگام طراحی بلوک کوانتایزر از کوانتیزاسیون یکنواخت استفاده می‌کنیم، اما معتقدیم که سایر تکنیک‌های کوانتیزه‌سازی می‌توانند جایگزین کوانتیزاسیون یکنواخت شوند و نتایج مشابهی را ایجاد کنند. نمونه های جمع آوری شده توسط بازیگران توسط یادگیرنده برای آموزش خط مشی شبکه عصبی استفاده می شود. به طور متناوب خط مشی آموخته شده توسط بلوک کوانتایزر کوانتیزه می شود و برای بازیگران پخش می شود.

Quantization زمان و عملکرد آموزش RL را بهبود می بخشد

ما ActorQ را در طیف وسیعی از محیط‌ها، از جمله Deepmind Control Suite و OpenAI Gym ارزیابی می‌کنیم. ما سرعت و عملکرد بهبود یافته D4PG و DQN را نشان می دهیم. ما D4PG را به عنوان بهترین الگوریتم یادگیری در ACME برای کارهای Deepmind Control Suite انتخاب کردیم و DQN یک الگوریتم RL استاندارد و پرکاربرد است.

ما سرعت قابل توجهی (بین 1.5x و 5.41x) را در سیاست های آموزشی RL مشاهده می کنیم. مهمتر از آن، عملکرد حتی زمانی که بازیگران استنتاج کوانتیزه int8 را انجام می دهند حفظ می شود. شکل‌های زیر این موضوع را برای عوامل D4PG و DQN برای کارهای Deepmind Control Suite و OpenAI Gym نشان می‌دهد.

مقایسه آموزش RL با استفاده از سیاست FP32 (q=32) و خط مشی int8 کوانتیزه شده (q=8) برای عوامل D4PG در وظایف مختلف Deepmind Control Suite. Quantization به سرعت 1.5x تا 3.06x دست می یابد.
مقایسه آموزش RL با استفاده از سیاست FP32 (q=32) و خط مشی int8 کوانتیزه شده (q=8) برای عوامل DQN در محیط OpenAI Gym. Quantization به سرعت 2.2x تا 5.41x دست می یابد.

کوانتیزاسیون انتشار کربن را کاهش می دهد

اعمال کوانتیزاسیون در RL با استفاده از ActorQ زمان آموزش را بدون تأثیر بر عملکرد بهبود می بخشد. پیامد مستقیم استفاده کارآمدتر از سخت افزار، ردپای کربن کمتر است. ما بهبود ردپای کربن را با در نظر گرفتن نسبت انتشار کربن هنگام استفاده از خط‌مشی FP32 در حین آموزش نسبت به انتشار کربن هنگام استفاده از خط مشی int8 در طول آموزش اندازه‌گیری می‌کنیم.

به منظور اندازه گیری انتشار کربن برای آزمایش آموزشی RL، ما از آزمایش-ضربه-ردیاب پیشنهاد شده در کار قبلی استفاده می کنیم. ما سیستم ActorQ را با رابط‌های برنامه‌نویسی مانیتور کربن برای اندازه‌گیری انرژی و انتشار کربن برای هر آزمایش آموزشی ابزار می‌کنیم.

در مقایسه با انتشار کربن هنگام اجرا با دقت کامل (FP32)، مشاهده می کنیم که کمی سازی سیاست ها، بسته به کار، انتشار کربن را از 1.9 برابر به 3.76 برابر کاهش می دهد. از آنجایی که سیستم های RL برای اجرا بر روی هزاران هسته سخت افزاری و شتاب دهنده های توزیع شده مقیاس بندی شده اند، ما معتقدیم که کاهش مطلق کربن (برحسب کیلوگرم CO اندازه گیری می شود.2) می تواند بسیار مهم باشد.

مقایسه انتشار کربن بین آموزش با استفاده از سیاست FP32 و سیاست int8. مقیاس محور X با انتشار کربن سیاست FP32 نرمال شده است. ActorQ که با نوارهای قرمز بزرگتر از 1 نشان داده می شود، انتشار کربن را کاهش می دهد.

نتیجه گیری و مسیرهای آینده

ما ActorQ را معرفی می‌کنیم، یک الگوی جدید که کوانتیزه‌سازی را در آموزش RL اعمال می‌کند و با حفظ عملکرد، به بهبودهای سرعت 1.5-5.4 برابری می‌رسد. علاوه بر این، ما نشان می‌دهیم که ActorQ می‌تواند ردپای کربن آموزش RL را در مقایسه با تمرین با دقت کامل بدون کوانتیزه کردن، ضریب 1.9-3.8 برابر کاهش دهد.

ActorQ نشان می دهد که کوانتیزاسیون را می توان به طور موثر در بسیاری از جنبه های RL، از به دست آوردن سیاست های کوانتیزه با کیفیت بالا و کارآمد گرفته تا کاهش زمان آموزش و انتشار کربن، اعمال کرد. از آنجایی که RL به برداشتن گام های بزرگ در حل مشکلات دنیای واقعی ادامه می دهد، ما معتقدیم که پایدار کردن آموزش RL برای پذیرش بسیار مهم است. همانطور که ما آموزش RL را به هزاران هسته و پردازنده گرافیکی تقسیم می کنیم، حتی یک بهبود 50 درصدی (همانطور که به طور تجربی نشان داده ایم) باعث صرفه جویی قابل توجهی در هزینه دلار مطلق، انرژی و انتشار کربن می شود. کار ما اولین قدم به سوی استفاده از کوانتیزه کردن در آموزش RL برای دستیابی به آموزش کارآمد و پایدار از نظر زیست محیطی است.

در حالی که طراحی ما از کوانتایزر در ActorQ متکی بر کوانتیزاسیون یکنواخت ساده است، ما معتقدیم که سایر اشکال کوانتیزاسیون، فشرده سازی و پراکندگی را می توان اعمال کرد (به عنوان مثال، تقطیر، تقطیر، پراکندگی و غیره). ما امیدواریم که کار آینده به کارگیری روش‌های کوانتیزه‌سازی و فشرده‌سازی تهاجمی‌تر را مد نظر قرار دهد، که ممکن است مزایای بیشتری برای عملکرد و دقت به‌دست‌آمده از سیاست‌های آموزش‌دیده RL داشته باشد.

قدردانی

مایلیم از نویسندگان همکارمان مکس لام، شاراد چیتلانگیا، زیشن وان و ویجی جاناپا ردی (دانشگاه هاروارد) و گابریل بارت مارون (دیپ مایند) به خاطر مشارکتشان در این کار تشکر کنیم. ما همچنین از تیم Google Cloud برای ارائه اعتبارات تحقیقاتی برای شروع این کار تشکر می کنیم.