کاوش بهینهسازیهای معماری مدل برای استنتاج مدل زبان بزرگ (LLM)، با تمرکز بر تکنیکهای توجه پرس و جو گروهی (GQA) و ترکیبی از کارشناسان (MoE).
پست های این مجموعه:
-
بهینه سازی استنتاج Primer on Large Language Model (LLM): 1. پس زمینه و فرمول بندی مسئله
-
آغازگر در مدل زبان بزرگ (LLM) بهینه سازی استنتاج: 2. مقدمه ای بر شتاب دهنده های هوش مصنوعی (AI)
-
بهینه سازی های استنتاج Primer on Large Language Model (LLM): 3. بهینه سازی های معماری مدل (این پست)
در سفر خود به بررسی بهینهسازی استنتاج LLM، در دو پست قبلی موارد مهمی را پوشش دادیم. اولین پست ما اصول استنتاج LLM را معرفی کرد و جزئیات معماری ترانسفورماتور و اجزای کلیدی آن مانند مکانیسمهای توجه و ذخیرهسازی KV را شرح داد.
ما در مورد دو مرحله حیاتی استنباط یاد گرفتیم: مرحله پیش پر کردن و مرحله رمزگشایی، که نشان می دهد چگونه بر عملکرد و استفاده از منابع تأثیر می گذارد. مرحله پیش پر کردن دارای پیچیدگی است O(L.d^2)
و مرحله رمزگشایی دارای پیچیدگی است O(n .d^2)
.
اینجا، L
طول دنباله است و d
بعد مدل است (بی توجهی به پیچیدگی های softmax و سایر عملیات برای سادگی). ما همچنین معیارهایی را برای ارزیابی عملکرد استنتاج LLM پوشش دادیم، مانند زمان…