بهینه سازی های استنتاج Primer on Large Language Model (LLM): 3. بهینه سازی های معماری مدل

کاوش بهینه‌سازی‌های معماری مدل برای استنتاج مدل زبان بزرگ (LLM)، با تمرکز بر تکنیک‌های توجه پرس و جو گروهی (GQA) و ترکیبی از کارشناسان (MoE).

پست های این مجموعه:

  1. بهینه سازی استنتاج Primer on Large Language Model (LLM): 1. پس زمینه و فرمول بندی مسئله

  2. آغازگر در مدل زبان بزرگ (LLM) بهینه سازی استنتاج: 2. مقدمه ای بر شتاب دهنده های هوش مصنوعی (AI)

  3. بهینه سازی های استنتاج Primer on Large Language Model (LLM): 3. بهینه سازی های معماری مدل (این پست)

در سفر خود به بررسی بهینه‌سازی استنتاج LLM، در دو پست قبلی موارد مهمی را پوشش دادیم. اولین پست ما اصول استنتاج LLM را معرفی کرد و جزئیات معماری ترانسفورماتور و اجزای کلیدی آن مانند مکانیسم‌های توجه و ذخیره‌سازی KV را شرح داد.

ما در مورد دو مرحله حیاتی استنباط یاد گرفتیم: مرحله پیش پر کردن و مرحله رمزگشایی، که نشان می دهد چگونه بر عملکرد و استفاده از منابع تأثیر می گذارد. مرحله پیش پر کردن دارای پیچیدگی است O(L.d^2) و مرحله رمزگشایی دارای پیچیدگی است O(n .d^2).

اینجا، L طول دنباله است و d بعد مدل است (بی توجهی به پیچیدگی های softmax و سایر عملیات برای سادگی). ما همچنین معیارهایی را برای ارزیابی عملکرد استنتاج LLM پوشش دادیم، مانند زمان…

Source link