به دلیل پیچیدگی درک و حل وظایف مختلف صرفاً با استفاده از دستورالعمل ها، اندازه LLM های چند وظیفه ای معمولاً از چندین میلیارد پارامتر تا صدها میلیارد متغیر است (به عنوان مثال FLAN-11B، T0-11B و OPT-IML-175B). در نتیجه، اجرای چنین مدلهای قابلتوجهی چالشهای قابلتوجهی ایجاد میکند، زیرا آنها نیاز به توان محاسباتی قابلتوجهی دارند و الزامات قابلتوجهی را بر ظرفیتهای حافظه GPU و TPU تحمیل میکنند و آموزش و استنتاج آنها را گران و ناکارآمد میسازند. برای حفظ یک کپی LLM منحصر به فرد برای هر کار پایین دستی، فضای ذخیره سازی گسترده ای مورد نیاز است. علاوه بر این، قدرتمندترین LLM های چند وظیفه ای (به عنوان مثال، FLAN-PaLM-540B) منبع بسته هستند و سازگاری با آنها را غیرممکن می کند. با این حال، در کاربردهای عملی، استفاده از یک LLM چند وظیفهای برای مدیریت تمام وظایف قابل تصور به روش صفر شات دشوار است، بهویژه زمانی که با وظایف پیچیده، کارهای شخصیسازی شده و کارهایی که نمیتوان با استفاده از دستورالعملها به طور خلاصه تعریف کرد، سروکار داشت. از سوی دیگر، اندازه داده های آموزشی پایین دستی معمولاً برای آموزش خوب یک مدل بدون ترکیب دانش قبلی غنی کافی نیست. از این رو، مدتهاست که تمایل به تطبیق LLMها با نظارت پایین دستی و در عین حال دور زدن مشکلات ذخیره سازی، حافظه و دسترسی وجود دارد.
مسلم – قطعی تنظیم کارآمد از نظر پارامتر استراتژیها، از جمله تنظیم سریع و آداپتورها، نیازهای ذخیرهسازی را به میزان قابلتوجهی کاهش میدهند، اما همچنان از طریق پارامترهای LLM در طول فرآیند تنظیم، انتشار مجدد را انجام میدهند و در نتیجه تقاضای حافظه خود را بالا نگه میدارند. علاوه بر این، برخی از یادگیری درون متنی تکنیکها با ادغام تعداد محدودی از نمونههای نظارت شده در دستورالعمل، تنظیم پارامتر را دور میزنند. با این حال، این تکنیکها توسط حداکثر طول ورودی مدل محدود میشوند، که تنها به چند نمونه اجازه میدهد تا وضوح کار را هدایت کند.
در “Cappy: عملکرد بهتر و تقویت LM های چند وظیفه ای بزرگ با امتیازدهنده کوچک” که در NeurIPS 2023 ارائه شد، ما رویکرد جدیدی را پیشنهاد می کنیم که عملکرد و کارایی LLM های چند وظیفه ای را افزایش می دهد. ما یک گلزن سبک وزن از پیش تمرین شده به نام Cappy را بر اساس پیش تمرینی مداوم در بالای RoBERTa با تنها 360 میلیون پارامتر معرفی می کنیم. Cappy یک دستورالعمل و یک پاسخ نامزد را به عنوان ورودی دریافت می کند و امتیازی بین 0 و 1 ایجاد می کند که نشان دهنده صحت تخمینی پاسخ با توجه به دستورالعمل است. Cappy یا به طور مستقل در وظایف طبقه بندی عمل می کند یا به عنوان یک جزء کمکی برای LLM ها عمل می کند و عملکرد آنها را افزایش می دهد. علاوه بر این، Cappy به طور مؤثر نظارت پاییندستی را بدون نیاز به تنظیم دقیق امکانپذیر میکند، که از نیاز به انتشار مجدد از طریق پارامترهای LLM جلوگیری میکند و نیاز به حافظه را کاهش میدهد. در نهایت، سازگاری با Cappy نیازی به دسترسی به پارامترهای LLM ندارد، زیرا با LLM های چندکاره منبع بسته سازگار است، مانند مواردی که فقط از طریق WebAPI قابل دسترسی هستند.