گفتار رمزگذار صوتی و LLM را برای QA گفتاری برتر متحد می کند

قسمت 1: چکیده و مقدمه

قسمت 2: زمینه

قسمت 3: حملات و اقدامات متقابل

قسمت 4: تنظیم آزمایشی

قسمت 5: مجموعه داده ها و ارزیابی

قسمت 6: حمله ، پارامترهای ضد اندازه گیری ، و پایه: آشفتگی های تصادفی

قسمت 7: نتایج و بحث

قسمت 8: انتقال حملات و اقدامات متقابل

قسمت 9: نتیجه گیری ، محدودیت ها و بیانیه اخلاق

قسمت 10: پیوست: رمزگذار صوتی قبل از آموزش و ارزیابی

قسمت 11: پیوست: حملات متقابل ، آموزش فرسایش داده ها و تأثیر سر و صدای تصادفی بر کمک

قسمت 12: پیوست: حملات تطبیقی ​​و نمونه های کیفی

4. راه اندازی آزمایشی

4.1 مدل

ما معماری SLM یکپارچه خود را به نام Supperverse در شکل 3 نشان می دهیم. این شامل دو مؤلفه اصلی است: رمزگذار صوتی و مدل زبان بزرگ.

qa

مدل زبان بزرگ ما در مطالعه خود دو نوع LLM از پیش آموزش در دسترس را به کار می بریم: (1) معماری رمزگذار مبتنی بر FLAN-T5- XL (Chung et al. ، 2022) با 3 میلیارد پارامتر ، و (2) معماری فقط رمزگذار mistral-7binstruct (جیانگ و همکاران ، 2023) با 7 میلیارد پارامتر. در حالی که هر دو مدل می توانند از دستورالعمل ها پیروی کنند ، فقط دومی مطابقت دارد یا از عملکرد یک مدل پارامتر 13 میلیارد مانند LLAMA-2 فراتر می رود (Touvron et al. ، 2023). نکته قابل توجه ، هیچ یک از این دو LLM به صراحت آموزش داده نشده اند …

Source link