مدلهای زبان بزرگ (LLM) یک الگوی یادگیری کارآمد دادهای جدید را فعال کردهاند که در آن میتوان از آنها برای حل کارهای جدید نادیده از طریق درخواستهای صفر یا چند شات استفاده کرد. با این حال، LLM ها برای استقرار برای برنامه های کاربردی در دنیای واقعی به دلیل اندازه بسیار چالش برانگیز هستند. به عنوان مثال، ارائه یک 175 میلیارد LLM به حداقل 350 گیگابایت حافظه GPU با استفاده از زیرساخت های تخصصی نیاز دارد، ناگفته نماند که LLM های مدرن امروزی از بیش از 500 میلیارد پارامتر تشکیل شده اند. چنین الزامات محاسباتی برای بسیاری از تیم های تحقیقاتی غیرقابل دسترس است، به ویژه برای برنامه هایی که به عملکرد تاخیر کم نیاز دارند.
برای دور زدن این چالشهای استقرار، پزشکان اغلب مدلهای تخصصی کوچکتر را به جای آن به کار میگیرند. این مدل های کوچکتر با استفاده از یکی از دو پارادایم رایج آموزش داده می شوند: تنظیم دقیق یا تقطیر. تنظیم دقیق یک مدل کوچکتر از قبل آموزش دیده (مانند BERT یا T5) را با استفاده از داده های حاشیه نویسی پایین دستی به روز می کند. تقطیر همان مدل های کوچکتر را با برچسب های تولید شده توسط یک LLM بزرگتر آموزش می دهد. متأسفانه، برای دستیابی به عملکرد قابل مقایسه با LLM، روشهای تنظیم دقیق به برچسبهای تولید شده توسط انسان نیاز دارند که به دست آوردن آنها گران و خستهکننده است، در حالی که تقطیر به مقادیر زیادی داده بدون برچسب نیاز دارد که جمعآوری آنها نیز میتواند دشوار باشد.
در «تقطیر گام به گام! عملکرد بهتر از مدلهای زبان بزرگتر با دادههای آموزشی کمتر و اندازههای مدل کوچکتر، ارائهشده در ACL2023، ما تصمیم گرفتیم با این مبادله بین اندازه مدل و هزینه جمعآوری دادههای آموزشی مقابله کنیم. ما تقطیر را گام به گام معرفی میکنیم، یک مکانیسم ساده جدید که به ما امکان میدهد مدلهای کوچکتر مختص کار را با دادههای آموزشی بسیار کمتر از آنچه که توسط روشهای تنظیم دقیق یا تقطیر استاندارد مورد نیاز است، آموزش دهیم که عملکرد LLMهای چند شات را بهتر از خود نشان میدهند. ما نشان میدهیم که مکانیسم تقطیر گام به گام، مدل T5 با پارامتر 770M را قادر میسازد تا از مدل 540B 540B PalM با استفاده از تنها 80 درصد نمونهها در یک مجموعه داده معیار بهتر عمل کند، که نشاندهنده کاهش اندازه مدل بیش از 700 برابر با بسیار کمتر است. داده های آموزشی مورد نیاز با رویکردهای استاندارد
در حالی که LLM ها عملکرد قوی صفر و چند شات را ارائه می دهند، ارائه آنها در عمل چالش برانگیز است. از سوی دیگر، روشهای سنتی آموزش مدلهای مختص کار کوچک به مقدار زیادی داده آموزشی نیاز دارد. تقطیر گام به گام الگوی جدیدی را ارائه می دهد که هم اندازه مدل مستقر شده و هم تعداد داده های مورد نیاز برای آموزش را کاهش می دهد. |
تقطیر مرحله به مرحله
ایده اصلی تقطیر مرحله به مرحله استخراج اطلاعات است زبان طبیعی دلایل منطقی (یعنی مراحل استدلال میانی) از LLM ها، که به نوبه خود می تواند برای آموزش مدل های کوچک به روشی کارآمدتر از نظر داده استفاده شود. به طور خاص، منطق زبان طبیعی ارتباط بین سؤالات ورودی و خروجی های مربوط به آنها را توضیح می دهد. به عنوان مثال، هنگامی که از شما پرسیده شد:اتاق جسی 11 فوت طول و 15 فوت عرض دارد. اگر او قبلاً 16 فوت مربع فرش داشته باشد، چقدر فرش بیشتر برای پوشاندن کل کف نیاز دارد؟یک LLM را می توان با تکنیک تحریک چند شات زنجیره ای از فکر (CoT) برای ارائه دلایل متوسط، مانند:مساحت = طول * عرض. اتاق جسی 11 * 15 فوت مربع است.“این ارتباط از ورودی تا پاسخ نهایی را بهتر توضیح می دهد.”(11 * 15) – 16“. این دلایل منطقی می تواند حاوی دانش مربوط به وظایف باشد، مانند “مساحت = طول * عرض”، که ممکن است در اصل به داده های زیادی برای یادگیری مدل های کوچک نیاز داشته باشد. ما از این منطق استخراج شده به عنوان نظارت اضافی و غنی تر برای آموزش مدل های کوچک، علاوه بر برچسب های وظایف استاندارد، استفاده می کنیم.
مروری بر تقطیر گام به گام: اول، ما از CoT برای استخراج دلایل منطقی از یک LLM استفاده میکنیم. سپس از منطق تولید شده برای آموزش مدلهای مختص کار کوچک در چارچوب یادگیری چند وظیفهای استفاده میکنیم، جایی که پیشوندهای کار را به نمونههای ورودی اضافه میکنیم و مدل را آموزش میدهیم تا بر اساس پیشوند وظیفه دادهشده، خروجی متفاوتی داشته باشد. |
تقطیر مرحله به مرحله شامل دو مرحله اصلی است. در مرحله اول، ما از CoT چند شات اهرمی برای استخراج منطق از LLMها استفاده می کنیم. به طور خاص، با توجه به یک کار، نمونه های چند شات را در اعلان ورودی LLM آماده می کنیم که در آن هر مثال از یک سه گانه تشکیل شده است که شامل: (1) ورودی، (2) منطق، و (3) خروجی است. با توجه به درخواست، یک LLM میتواند نمایش سهگانه را تقلید کند تا منطقی برای هر ورودی جدید ایجاد کند. به عنوان مثال، در پاسخگویی به سؤالات عامیانه، با توجه به سؤال ورودی «سامی میخواست به جایی که مردم هستند برود. کجا ممکن است برود؟ گزینههای پاسخ: (الف) مناطق پرجمعیت، (ب) مسیر مسابقه، (ج) بیابان، (د) آپارتمان، (ه) سد راه، تقطیر مرحلهبهگام پاسخ صحیحی را به این سوال ارائه میدهد، (الف) پرجمعیت مناطق»، همراه با منطقی که ارتباط بهتری را از سؤال تا پاسخ فراهم میکند، «پاسخ باید مکانی با افراد زیادی باشد. از میان گزینههای بالا، فقط مناطق پرجمعیت جمعیت زیادی دارند.» با ارائه مثالهای CoT همراه با دلایل منطقی در اعلان، توانایی یادگیری درون متنی به LLM اجازه میدهد تا منطق متناظر را برای ورودیهای نادیده آینده خروجی دهد.
ما از اعلان CoT چند شات استفاده می کنیم که شامل هر دو مثال منطقی است (با رنگ سبز مشخص شده است) و یک برچسب (با رنگ آبی مشخص شده است)، برای استخراج منطق از یک LLM در نمونه های ورودی جدید. مثال از یک تکلیف پاسخگویی به سؤالات عقل سلیم است. |
پس از استخراج منطق ها، در مرحله دوم، با قالب بندی فرآیند آموزش به عنوان یک مسئله چند وظیفه ای، منطق ها را در آموزش مدل های کوچک گنجانده ایم. به طور خاص، ما مدل کوچک را با یک رمان آموزش می دهیم وظیفه تولید منطق علاوه بر استاندارد کار پیش بینی برچسب. وظیفه تولید منطق مدل را قادر میسازد تا تولید مراحل استدلال میانی برای پیشبینی را بیاموزد و مدل را برای پیشبینی بهتر برچسب حاصل راهنمایی میکند. ما پیشوندهای وظیفه را آماده می کنیم (به عنوان مثال، [label] و [rationale] برای پیشبینی برچسب و تولید منطق، به ترتیب) به نمونههای ورودی برای مدل برای متمایز کردن دو کار.
راه اندازی آزمایشی
در آزمایشها، ما یک مدل 540B PalM را به عنوان LLM در نظر میگیریم. برای مدلهای پاییندستی خاص، از مدلهای T5 استفاده میکنیم. برای درخواست CoT، در صورت موجود بودن از درخواست های CoT اصلی استفاده می کنیم و نمونه های خود را برای مجموعه داده های جدید تنظیم می کنیم. ما آزمایشها را روی چهار مجموعه داده معیار در سه کار مختلف NLP انجام میدهیم: e-SNLI و ANLI برای استنتاج زبان طبیعی. CQA برای پاسخگویی به سؤالات عامیانه؛ و SVAMP برای مشکلات کلمه ریاضی ریاضی. ما دو مجموعه از روش های پایه را شامل می کنیم. برای مقایسه با LLM های چند شات، ما با چند شات درخواست CoT با مدل 540B PalM مقایسه می کنیم. در این مقاله، ما همچنین آموزش مدل استاندارد کار خاص را با تنظیم دقیق و تقطیر استاندارد مقایسه میکنیم. در این وبلاگ، ما بر مقایسه با تنظیم دقیق استاندارد برای اهداف تصویرسازی تمرکز خواهیم کرد.
داده های آموزشی کمتر
در مقایسه با تنظیم دقیق استاندارد، روش تقطیر مرحله به مرحله با استفاده از داده های آموزشی بسیار کمتر، عملکرد بهتری را به دست می آورد. به عنوان مثال، در مجموعه داده e-SNLI، زمانی که فقط از 12.5٪ از مجموعه داده کامل استفاده می کنیم (در ربع سمت چپ بالا در زیر نشان داده شده است) عملکرد بهتری نسبت به تنظیم دقیق استاندارد بدست می آوریم. به طور مشابه، ما به کاهش اندازه مجموعه داده 75٪، 25٪ و 20٪ در ANLI، CQA و SVAMP دست پیدا می کنیم.
تقطیر گام به گام در مقایسه با تنظیم دقیق استاندارد با استفاده از مدلهای 220M T5 در اندازههای مختلف مجموعه دادههای برچسبگذاری شده توسط انسان. در تمام مجموعههای داده، تقطیر گام به گام میتواند با استفاده از نمونههای آموزشی بسیار کمتر، از تنظیم دقیق استاندارد که بر روی مجموعه داده کامل آموزش داده شده است، بهتر عمل کند. |
اندازه مدل مستقر کوچکتر
در مقایسه با LLM های چند شات CoT، تقطیر مرحله به مرحله عملکرد بهتری را با استفاده از اندازه های مدل بسیار کوچکتر به دست می آورد. به عنوان مثال، در مجموعه داده e-SNLI، با استفاده از یک مدل 220M T5، عملکرد بهتری نسبت به 540B PalM بدست میآوریم. در ANLI، با استفاده از مدل 770M T5، که بیش از 700 برابر کوچکتر است، عملکرد بهتری نسبت به 540B PalM بدست می آوریم. توجه داشته باشید که در ANLI، همان مدل 770M T5 برای مطابقت با عملکرد PalM با استفاده از تنظیم دقیق استاندارد تلاش می کند.
ما تقطیر را گام به گام و تنظیم دقیق استاندارد را در اندازههای مختلف مدلهای T5 انجام میدهیم و عملکرد آنها را با خطوط پایه LLM، یعنی Few-shot CoT و PINTO Tuning مقایسه میکنیم. تقطیر گام به گام می تواند با استفاده از مدل های بسیار کوچکتر، به عنوان مثال، بیش از 700 × مدل های کوچکتر در ANLI، از خطوط پایه LLM بهتر عمل کند. تنظیم دقیق استاندارد با استفاده از اندازه مدل مشابه با عملکرد LLM مطابقت ندارد. |
تقطیر گام به گام بهتر از LLM های چند شات با مدل های کوچکتر با استفاده از داده های کمتر است.
در نهایت، کوچکترین اندازههای مدل و کمترین مقدار داده را برای تقطیر مرحله به مرحله بررسی میکنیم تا عملکرد چند شات PaLM را بهتر انجام دهیم. به عنوان مثال، در ANLI، ما از عملکرد 540B PalM با استفاده از مدل 770M T5 پیشی گرفتیم. این مدل کوچکتر تنها از 80 درصد مجموعه داده کامل استفاده می کند. در همین حال، مشاهده میکنیم که تنظیم دقیق استاندارد حتی با استفاده از 100٪ از مجموعه داده کامل نمیتواند با عملکرد PalM برابری کند. این نشان می دهد که تقطیر گام به گام به طور همزمان اندازه مدل و همچنین مقدار داده های مورد نیاز برای عملکرد بهتر از LLM ها را کاهش می دهد.
ما حداقل اندازه مدلهای T5 و کمترین نمونههای برچسبگذاری شده توسط انسان را نشان میدهیم که برای تقطیر گام به گام لازم است تا با جستجوی درشت دانه از CoT چند شات LLM بهتر عمل کنیم. تقطیر مرحلهبهگام میتواند با استفاده از مدلهای بسیار کوچکتر از CoT چند شات بهتر عمل کند، بلکه با نمونههای آموزشی بسیار کمتر در مقایسه با تنظیم دقیق استاندارد، به این مهم دست مییابد. |
نتیجه
ما تقطیر گام به گام را پیشنهاد میکنیم، مکانیزم جدیدی که دلایل منطقی را از LLMها به عنوان نظارت آموزنده در آموزش مدلهای کوچک و مختص کار استخراج میکند. ما نشان میدهیم که تقطیر گام به گام هم مجموعه دادههای آموزشی مورد نیاز برای تنظیم مدلهای کوچکتر مختص کار و هم اندازه مدل مورد نیاز برای دستیابی و حتی پیشی گرفتن از چند شات عملکرد LLM را کاهش میدهد. به طور کلی، تقطیر گام به گام یک پارادایم کارآمد از نظر منابع را ارائه می دهد که با مبادله بین اندازه مدل و داده های آموزشی مورد نیاز مقابله می کند.
در دسترس بودن در Google Cloud Platform
تقطیر گام به گام برای پیش نمایش خصوصی در Vertex AI در دسترس است. اگر میخواهید آن را امتحان کنید، لطفاً با [email protected] با شماره پروژه Google Cloud خود و خلاصهای از مورد استفاده خود تماس بگیرید.
سپاسگزاریها
این تحقیق توسط چنگ یو هسیه، چون لیانگ لی، چیه کوان یه، هوتن ناخوست، یاسوهیسا فوجی، الکساندر راتنر، رانجی کریشنا، چن یو لی و توماس پیستر انجام شد. با تشکر از Xiang Zhang و Sergey Ioffe برای بازخورد ارزشمندشان.