عملکرد بهتر از مدل‌های زبان بزرگ‌تر با داده‌های آموزشی کمتر و اندازه‌های مدل کوچک‌تر – وبلاگ تحقیقاتی Google

عملکرد بهتر از مدل‌های زبان بزرگ‌تر با داده‌های آموزشی کمتر و اندازه‌های مدل کوچک‌تر – وبلاگ تحقیقاتی Google

مدل‌های زبان بزرگ (LLM) یک الگوی یادگیری کارآمد داده‌ای جدید را فعال کرده‌اند که در آن می‌توان از آن‌ها برای حل کارهای جدید نادیده از طریق درخواست‌های صفر یا چند شات استفاده کرد. با این حال، LLM ها برای استقرار برای برنامه های کاربردی در دنیای واقعی به دلیل اندازه بسیار چالش برانگیز هستند. به عنوان مثال، ارائه یک 175 میلیارد LLM به حداقل 350 گیگابایت حافظه GPU با استفاده از زیرساخت های تخصصی نیاز دارد، ناگفته نماند که LLM های مدرن امروزی از بیش از 500 میلیارد پارامتر تشکیل شده اند. چنین الزامات محاسباتی برای بسیاری از تیم های تحقیقاتی غیرقابل دسترس است، به ویژه برای برنامه هایی که به عملکرد تاخیر کم نیاز دارند.

برای دور زدن این چالش‌های استقرار، پزشکان اغلب مدل‌های تخصصی کوچک‌تر را به جای آن به کار می‌گیرند. این مدل های کوچکتر با استفاده از یکی از دو پارادایم رایج آموزش داده می شوند: تنظیم دقیق یا تقطیر. تنظیم دقیق یک مدل کوچکتر از قبل آموزش دیده (مانند BERT یا T5) را با استفاده از داده های حاشیه نویسی پایین دستی به روز می کند. تقطیر همان مدل های کوچکتر را با برچسب های تولید شده توسط یک LLM بزرگتر آموزش می دهد. متأسفانه، برای دستیابی به عملکرد قابل مقایسه با LLM، روش‌های تنظیم دقیق به برچسب‌های تولید شده توسط انسان نیاز دارند که به دست آوردن آنها گران و خسته‌کننده است، در حالی که تقطیر به مقادیر زیادی داده بدون برچسب نیاز دارد که جمع‌آوری آن‌ها نیز می‌تواند دشوار باشد.

در «تقطیر گام به گام! عملکرد بهتر از مدل‌های زبان بزرگ‌تر با داده‌های آموزشی کمتر و اندازه‌های مدل کوچک‌تر، ارائه‌شده در ACL2023، ما تصمیم گرفتیم با این مبادله بین اندازه مدل و هزینه جمع‌آوری داده‌های آموزشی مقابله کنیم. ما تقطیر را گام به گام معرفی می‌کنیم، یک مکانیسم ساده جدید که به ما امکان می‌دهد مدل‌های کوچک‌تر مختص کار را با داده‌های آموزشی بسیار کمتر از آنچه که توسط روش‌های تنظیم دقیق یا تقطیر استاندارد مورد نیاز است، آموزش دهیم که عملکرد LLM‌های چند شات را بهتر از خود نشان می‌دهند. ما نشان می‌دهیم که مکانیسم تقطیر گام به گام، مدل T5 با پارامتر 770M را قادر می‌سازد تا از مدل 540B 540B PalM با استفاده از تنها 80 درصد نمونه‌ها در یک مجموعه داده معیار بهتر عمل کند، که نشان‌دهنده کاهش اندازه مدل بیش از 700 برابر با بسیار کمتر است. داده های آموزشی مورد نیاز با رویکردهای استاندارد

در حالی که LLM ها عملکرد قوی صفر و چند شات را ارائه می دهند، ارائه آنها در عمل چالش برانگیز است. از سوی دیگر، روش‌های سنتی آموزش مدل‌های مختص کار کوچک به مقدار زیادی داده آموزشی نیاز دارد. تقطیر گام به گام الگوی جدیدی را ارائه می دهد که هم اندازه مدل مستقر شده و هم تعداد داده های مورد نیاز برای آموزش را کاهش می دهد.

تقطیر مرحله به مرحله

ایده اصلی تقطیر مرحله به مرحله استخراج اطلاعات است زبان طبیعی دلایل منطقی (یعنی مراحل استدلال میانی) از LLM ها، که به نوبه خود می تواند برای آموزش مدل های کوچک به روشی کارآمدتر از نظر داده استفاده شود. به طور خاص، منطق زبان طبیعی ارتباط بین سؤالات ورودی و خروجی های مربوط به آنها را توضیح می دهد. به عنوان مثال، هنگامی که از شما پرسیده شد:اتاق جسی 11 فوت طول و 15 فوت عرض دارد. اگر او قبلاً 16 فوت مربع فرش داشته باشد، چقدر فرش بیشتر برای پوشاندن کل کف نیاز دارد؟یک LLM را می توان با تکنیک تحریک چند شات زنجیره ای از فکر (CoT) برای ارائه دلایل متوسط، مانند:مساحت = طول * عرض. اتاق جسی 11 * 15 فوت مربع است.“این ارتباط از ورودی تا پاسخ نهایی را بهتر توضیح می دهد.”(11 * 15) – 16“. این دلایل منطقی می تواند حاوی دانش مربوط به وظایف باشد، مانند “مساحت = طول * عرض”، که ممکن است در اصل به داده های زیادی برای یادگیری مدل های کوچک نیاز داشته باشد. ما از این منطق استخراج شده به عنوان نظارت اضافی و غنی تر برای آموزش مدل های کوچک، علاوه بر برچسب های وظایف استاندارد، استفاده می کنیم.

مروری بر تقطیر گام به گام: اول، ما از CoT برای استخراج دلایل منطقی از یک LLM استفاده می‌کنیم. سپس از منطق تولید شده برای آموزش مدل‌های مختص کار کوچک در چارچوب یادگیری چند وظیفه‌ای استفاده می‌کنیم، جایی که پیشوندهای کار را به نمونه‌های ورودی اضافه می‌کنیم و مدل را آموزش می‌دهیم تا بر اساس پیشوند وظیفه داده‌شده، خروجی متفاوتی داشته باشد.

تقطیر مرحله به مرحله شامل دو مرحله اصلی است. در مرحله اول، ما از CoT چند شات اهرمی برای استخراج منطق از LLMها استفاده می کنیم. به طور خاص، با توجه به یک کار، نمونه های چند شات را در اعلان ورودی LLM آماده می کنیم که در آن هر مثال از یک سه گانه تشکیل شده است که شامل: (1) ورودی، (2) منطق، و (3) خروجی است. با توجه به درخواست، یک LLM می‌تواند نمایش سه‌گانه را تقلید کند تا منطقی برای هر ورودی جدید ایجاد کند. به عنوان مثال، در پاسخگویی به سؤالات عامیانه، با توجه به سؤال ورودی «سامی می‌خواست به جایی که مردم هستند برود. کجا ممکن است برود؟ گزینه‌های پاسخ: (الف) مناطق پرجمعیت، (ب) مسیر مسابقه، (ج) بیابان، (د) آپارتمان، (ه) سد راه، تقطیر مرحله‌به‌گام پاسخ صحیحی را به این سوال ارائه می‌دهد، (الف) پرجمعیت مناطق»، همراه با منطقی که ارتباط بهتری را از سؤال تا پاسخ فراهم می‌کند، «پاسخ باید مکانی با افراد زیادی باشد. از میان گزینه‌های بالا، فقط مناطق پرجمعیت جمعیت زیادی دارند.» با ارائه مثال‌های CoT همراه با دلایل منطقی در اعلان، توانایی یادگیری درون متنی به LLM اجازه می‌دهد تا منطق متناظر را برای ورودی‌های نادیده آینده خروجی دهد.

ما از اعلان CoT چند شات استفاده می کنیم که شامل هر دو مثال منطقی است (با رنگ سبز مشخص شده است) و یک برچسب (با رنگ آبی مشخص شده است)، برای استخراج منطق از یک LLM در نمونه های ورودی جدید. مثال از یک تکلیف پاسخگویی به سؤالات عقل سلیم است.

پس از استخراج منطق ها، در مرحله دوم، با قالب بندی فرآیند آموزش به عنوان یک مسئله چند وظیفه ای، منطق ها را در آموزش مدل های کوچک گنجانده ایم. به طور خاص، ما مدل کوچک را با یک رمان آموزش می دهیم وظیفه تولید منطق علاوه بر استاندارد کار پیش بینی برچسب. وظیفه تولید منطق مدل را قادر می‌سازد تا تولید مراحل استدلال میانی برای پیش‌بینی را بیاموزد و مدل را برای پیش‌بینی بهتر برچسب حاصل راهنمایی می‌کند. ما پیشوندهای وظیفه را آماده می کنیم (به عنوان مثال، [label] و [rationale] برای پیش‌بینی برچسب و تولید منطق، به ترتیب) به نمونه‌های ورودی برای مدل برای متمایز کردن دو کار.

راه اندازی آزمایشی

در آزمایش‌ها، ما یک مدل 540B PalM را به عنوان LLM در نظر می‌گیریم. برای مدل‌های پایین‌دستی خاص، از مدل‌های T5 استفاده می‌کنیم. برای درخواست CoT، در صورت موجود بودن از درخواست های CoT اصلی استفاده می کنیم و نمونه های خود را برای مجموعه داده های جدید تنظیم می کنیم. ما آزمایش‌ها را روی چهار مجموعه داده معیار در سه کار مختلف NLP انجام می‌دهیم: e-SNLI و ANLI برای استنتاج زبان طبیعی. CQA برای پاسخگویی به سؤالات عامیانه؛ و SVAMP برای مشکلات کلمه ریاضی ریاضی. ما دو مجموعه از روش های پایه را شامل می کنیم. برای مقایسه با LLM های چند شات، ما با چند شات درخواست CoT با مدل 540B PalM مقایسه می کنیم. در این مقاله، ما همچنین آموزش مدل استاندارد کار خاص را با تنظیم دقیق و تقطیر استاندارد مقایسه می‌کنیم. در این وبلاگ، ما بر مقایسه با تنظیم دقیق استاندارد برای اهداف تصویرسازی تمرکز خواهیم کرد.

داده های آموزشی کمتر

در مقایسه با تنظیم دقیق استاندارد، روش تقطیر مرحله به مرحله با استفاده از داده های آموزشی بسیار کمتر، عملکرد بهتری را به دست می آورد. به عنوان مثال، در مجموعه داده e-SNLI، زمانی که فقط از 12.5٪ از مجموعه داده کامل استفاده می کنیم (در ربع سمت چپ بالا در زیر نشان داده شده است) عملکرد بهتری نسبت به تنظیم دقیق استاندارد بدست می آوریم. به طور مشابه، ما به کاهش اندازه مجموعه داده 75٪، 25٪ و 20٪ در ANLI، CQA و SVAMP دست پیدا می کنیم.

تقطیر گام به گام در مقایسه با تنظیم دقیق استاندارد با استفاده از مدل‌های 220M T5 در اندازه‌های مختلف مجموعه داده‌های برچسب‌گذاری شده توسط انسان. در تمام مجموعه‌های داده، تقطیر گام به گام می‌تواند با استفاده از نمونه‌های آموزشی بسیار کمتر، از تنظیم دقیق استاندارد که بر روی مجموعه داده کامل آموزش داده شده است، بهتر عمل کند.

اندازه مدل مستقر کوچکتر

در مقایسه با LLM های چند شات CoT، تقطیر مرحله به مرحله عملکرد بهتری را با استفاده از اندازه های مدل بسیار کوچکتر به دست می آورد. به عنوان مثال، در مجموعه داده e-SNLI، با استفاده از یک مدل 220M T5، عملکرد بهتری نسبت به 540B PalM بدست می‌آوریم. در ANLI، با استفاده از مدل 770M T5، که بیش از 700 برابر کوچکتر است، عملکرد بهتری نسبت به 540B PalM بدست می آوریم. توجه داشته باشید که در ANLI، همان مدل 770M T5 برای مطابقت با عملکرد PalM با استفاده از تنظیم دقیق استاندارد تلاش می کند.

ما تقطیر را گام به گام و تنظیم دقیق استاندارد را در اندازه‌های مختلف مدل‌های T5 انجام می‌دهیم و عملکرد آن‌ها را با خطوط پایه LLM، یعنی Few-shot CoT و PINTO Tuning مقایسه می‌کنیم. تقطیر گام به گام می تواند با استفاده از مدل های بسیار کوچکتر، به عنوان مثال، بیش از 700 × مدل های کوچکتر در ANLI، از خطوط پایه LLM بهتر عمل کند. تنظیم دقیق استاندارد با استفاده از اندازه مدل مشابه با عملکرد LLM مطابقت ندارد.

تقطیر گام به گام بهتر از LLM های چند شات با مدل های کوچکتر با استفاده از داده های کمتر است.

در نهایت، کوچک‌ترین اندازه‌های مدل و کمترین مقدار داده را برای تقطیر مرحله به مرحله بررسی می‌کنیم تا عملکرد چند شات PaLM را بهتر انجام دهیم. به عنوان مثال، در ANLI، ما از عملکرد 540B PalM با استفاده از مدل 770M T5 پیشی گرفتیم. این مدل کوچکتر تنها از 80 درصد مجموعه داده کامل استفاده می کند. در همین حال، مشاهده می‌کنیم که تنظیم دقیق استاندارد حتی با استفاده از 100٪ از مجموعه داده کامل نمی‌تواند با عملکرد PalM برابری کند. این نشان می دهد که تقطیر گام به گام به طور همزمان اندازه مدل و همچنین مقدار داده های مورد نیاز برای عملکرد بهتر از LLM ها را کاهش می دهد.

ما حداقل اندازه مدل‌های T5 و کمترین نمونه‌های برچسب‌گذاری شده توسط انسان را نشان می‌دهیم که برای تقطیر گام به گام لازم است تا با جستجوی درشت دانه از CoT چند شات LLM بهتر عمل کنیم. تقطیر مرحله‌به‌گام می‌تواند با استفاده از مدل‌های بسیار کوچک‌تر از CoT چند شات بهتر عمل کند، بلکه با نمونه‌های آموزشی بسیار کمتر در مقایسه با تنظیم دقیق استاندارد، به این مهم دست می‌یابد.

نتیجه

ما تقطیر گام به گام را پیشنهاد می‌کنیم، مکانیزم جدیدی که دلایل منطقی را از LLMها به عنوان نظارت آموزنده در آموزش مدل‌های کوچک و مختص کار استخراج می‌کند. ما نشان می‌دهیم که تقطیر گام به گام هم مجموعه داده‌های آموزشی مورد نیاز برای تنظیم مدل‌های کوچک‌تر مختص کار و هم اندازه مدل مورد نیاز برای دستیابی و حتی پیشی گرفتن از چند شات عملکرد LLM را کاهش می‌دهد. به طور کلی، تقطیر گام به گام یک پارادایم کارآمد از نظر منابع را ارائه می دهد که با مبادله بین اندازه مدل و داده های آموزشی مورد نیاز مقابله می کند.

در دسترس بودن در Google Cloud Platform

تقطیر گام به گام برای پیش نمایش خصوصی در Vertex AI در دسترس است. اگر می‌خواهید آن را امتحان کنید، لطفاً با [email protected] با شماره پروژه Google Cloud خود و خلاصه‌ای از مورد استفاده خود تماس بگیرید.

سپاسگزاریها

این تحقیق توسط چنگ یو هسیه، چون لیانگ لی، چیه کوان یه، هوتن ناخوست، یاسوهیسا فوجی، الکساندر راتنر، رانجی کریشنا، چن یو لی و توماس پیستر انجام شد. با تشکر از Xiang Zhang و Sergey Ioffe برای بازخورد ارزشمندشان.