Apparate: Early-Exit Models for ML Latency and Throughput Optimization – Evaluation and Methodology

نویسندگان:

(1) Yinwei Dai، دانشگاه پرینستون (کمک های برابر).

(2) Rui Pan، دانشگاه پرینستون (کمک های برابر).

(3) Anand Iyer، موسسه فناوری جورجیا.

(4) Ravi Netravali، موسسه فناوری جورجیا.

چکیده و 1 مقدمه

2 بستر و زمینه و انگیزه و 2.1 مدل سرویس دهی

2.2 مدل های خروج زودهنگام

2.3 چالش ها

3 طراحی

3.1 آماده سازی مدل ها با خروجی های اولیه

3.2 تنظیم آستانه با آگاهی از دقت

3.3 تنظیمات رمپ متمرکز بر تأخیر

4 پیاده سازی

5 ارزیابی و 5.1 روش شناسی

5.2 نتایج کلی

5.3 مقایسه با استراتژی های EE موجود

5.4 میکرو بنچمارک ها

6 کارهای مرتبط اضافی

7 نتیجه گیری، مراجع، پیوست

5 ارزیابی

ما Apparate را در طیف وسیعی از حجم کاری NLP و CV و پلتفرم‌های ارائه خدمات ارزیابی کردیم. یافته های کلیدی ما عبارتند از:

• Apparate تاخیرهای صدک 25 و میانه را 40.5-91.5٪ و 70.2-94.2٪ برای CV، و 16.0-37.3٪ و 10.0-24.2٪ برای حجم کاری NLP در مقایسه با مدل های اصلی (غیر EE) کاهش می دهد.

• برخلاف مدل‌های EE موجود که به‌طور غیرقابل قبولی دقت و تأخیر دنباله را تا 23.9 درصد و 11.0 درصد بدتر می‌کنند، Apparate به طور مداوم محدودیت‌های دقت و تأخیر دنباله مشخص را برآورده می‌کند.

• Apparate به طور خودکار به معماری های مدل های مختلف (مثلاً فشرده) و پیکربندی های EE تعمیم می یابد (مثلاً…

Source link