مدل های جاسازی بزرگ به عنوان یک ابزار اساسی برای کاربردهای مختلف در سیستم های توصیه ظاهر شده اند [1, 2] و پردازش زبان طبیعی [3, 4, 5]. چنین مدلهایی ادغام دادههای غیر عددی را در مدلهای یادگیری عمیق با نگاشت ویژگیهای ورودی مقولهای یا رشتهای با واژگان بزرگ به بردارهای نمایش با طول ثابت با استفاده از لایههای جاسازی امکانپذیر میسازند. این مدلها بهطور گسترده در سیستمهای توصیههای شخصیسازی شده مستقر شدهاند و به عملکرد پیشرفتهای در وظایف زبانی، مانند مدلسازی زبان، تحلیل احساسات و پاسخگویی به سؤالات دست مییابند. در بسیاری از این سناریوها، حریم خصوصی یک ویژگی به همان اندازه مهم در هنگام استقرار آن مدل ها است. در نتیجه، تکنیک های مختلفی برای فعال کردن تجزیه و تحلیل داده های خصوصی پیشنهاد شده است. در میان آنها، حریم خصوصی تفاضلی (DP) یک تعریف بهطور گسترده پذیرفته شده است که قرار گرفتن در معرض اطلاعات فردی کاربر را محدود میکند و در عین حال امکان تجزیه و تحلیل الگوهای سطح جمعیت را نیز فراهم میکند.
برای آموزش شبکه های عصبی عمیق با ضمانت DP، پرکاربردترین الگوریتم DP-SGD (DP stochastic gradient descent) است. یکی از اجزای کلیدی DP-SGD اضافه کردن نویز گاوسی به هر مختصات بردارهای گرادیان در طول آموزش است. با این حال، این باعث ایجاد چالشهای مقیاسپذیری در هنگام اعمال میشود مدل های جاسازی بزرگ، زیرا برای آموزش کارآمد به پراکندگی گرادیان متکی هستند، اما اضافه کردن نویز به همه مختصات، پراکندگی را از بین می برد.
برای کاهش این مشکل پراکندگی گرادیان، در «آموزش خصوصی متفاوت با حفظ پراکندگی مدلهای جاسازی بزرگ» (که در NeurIPS 2023 ارائه خواهد شد)، الگوریتم جدیدی به نام پیشنهاد میکنیم. آموزش پراکنده با قابلیت فیلتر تطبیقی (DP-AdaFEST). در سطح بالایی، الگوریتم با انتخاب تنها زیرمجموعهای از ردیفهای ویژگی که در هر تکرار به آن نویز اضافه میشود، پراکندگی گرادیان را حفظ میکند. نکته کلیدی این است که چنین انتخاب هایی به طور متفاوت خصوصی شود تا تعادل سه طرفه بین هزینه حفظ حریم خصوصی، کارایی آموزش و کاربرد مدل حاصل شود. ارزیابی تجربی ما نشان میدهد که DP-AdaFEST با کاهش اندازه گرادیان بیش از 10 به یک گرادیان بسیار کمتر دست مییابد.5X در مقایسه با گرادیان متراکم تولید شده توسط استاندارد DP-SGD، در حالی که سطوح دقت قابل مقایسه ای را حفظ می کند. این کاهش اندازه گرادیان می تواند به بهبود 20 برابری زمان ساعت دیواری تبدیل شود.
بررسی اجمالی
برای درک بهتر چالش ها و راه حل های ما برای مشکل پراکندگی گرادیان، اجازه دهید با مروری بر نحوه عملکرد DP-SGD در طول آموزش شروع کنیم. همانطور که در شکل زیر نشان داده شده است، DP-SGD با برش سهم گرادیان از هر مثال در زیر مجموعه تصادفی فعلی نمونه ها (که یک دسته کوچک نامیده می شود)، و اضافه کردن نویز گاوسی مختصات به گرادیان متوسط در طول هر تکرار تصادفی عمل می کند. شیب نزول (SGD). DP-SGD اثربخشی خود را در حفاظت از حریم خصوصی کاربر و در عین حال حفظ مطلوبیت مدل در برنامه های مختلف نشان داده است. [6, 7].
تصویری از نحوه عملکرد DP-SGD. در طول هر مرحله آموزشی، یک دسته کوچک از نمونهها نمونهبرداری میشود و برای محاسبه گرادیانهای هر مثال استفاده میشود. این شیب ها از طریق برش، تجمع و جمع نویز گاوسی پردازش می شوند تا شیب های خصوصی سازی شده نهایی تولید شوند. |
چالشهای اعمال DP-SGD در مدلهای جاسازی بزرگ عمدتاً از 1) فیلدهای ویژگی غیر عددی مانند شناسهها و دستههای کاربر/محصول، و 2) کلمات و نشانههایی که از طریق یک لایه جاسازی به بردارهای متراکم تبدیل میشوند، ناشی میشوند. با توجه به اندازه واژگان این ویژگی ها، این فرآیند به جداول جاسازی بزرگ با تعداد قابل توجهی از پارامترها نیاز دارد. برخلاف تعداد پارامترها، بهروزرسانیهای گرادیان معمولاً بسیار پراکنده هستند، زیرا هر نمونه کوچک از نمونهها فقط بخش کوچکی از ردیفهای جاسازی شده را فعال میکند (شکل زیر نسبت مختصات با ارزش صفر را نشان میدهد، یعنی پراکندگی گرادیان در اندازه های دسته ای مختلف). این پراکندگی به شدت برای کاربردهای صنعتی که به طور موثر آموزش تعبیههای در مقیاس بزرگ را مدیریت میکنند، مورد استفاده قرار میگیرد. به عنوان مثال، Google Cloud TPU، شتابدهندههای هوش مصنوعی طراحیشده سفارشی که برای آموزش و استنتاج مدلهای هوش مصنوعی بزرگ بهینهسازی شدهاند، APIهای اختصاصی برای مدیریت جاسازیهای بزرگ با بهروزرسانیهای پراکنده دارند. این منجر به بهبود قابل توجهی توان عملیاتی آموزشی در مقایسه با آموزش بر روی پردازندههای گرافیکی میشود، که در این سطح بالا، الگوریتم تنها با انتخاب زیرمجموعهای از ردیفهای ویژگی که نویز در هر تکرار به آن اضافه میشود، پراکندگی گرادیان را حفظ میکند. زمان بهینه سازی تخصصی برای جستجوهای جاسازی پراکنده نداشت. از طرف دیگر، DP-SGD به طور کامل پراکندگی گرادیان را از بین می برد زیرا نیاز به اضافه کردن نویز گاوسی مستقل به آن دارد. همه مختصات این یک مانع برای آموزش خصوصی مدلهای تعبیهشده بزرگ ایجاد میکند، زیرا راندمان آموزشی در مقایسه با آموزش غیرخصوصی به طور قابلتوجهی کاهش مییابد.
تعبیه پراکندگی گرادیان (کسری از مختصات گرادیان با مقدار صفر) در مدل Criteo pCTR (به زیر مراجعه کنید). این شکل، پراکندگی گرادیان، به طور میانگین بیش از 50 مرحله بهروزرسانی، از پنج ویژگی طبقهبندی برتر (از مجموع 26 مورد) با بیشترین تعداد سطل، و همچنین پراکندگی همه ویژگیهای طبقهبندی را گزارش میکند. پراکندگی با اندازه دسته کاهش مییابد زیرا نمونههای بیشتر به ردیفهای بیشتری در جدول جاسازی میرسند و شیبهای غیر صفر ایجاد میکنند. با این حال، پراکندگی بالای 0.97 حتی برای اندازه های دسته ای بسیار بزرگ است. این الگو به طور مداوم برای تمام پنج ویژگی مشاهده می شود. |
الگوریتم
الگوریتم ما با گسترش DP-SGD استاندارد با یک مکانیسم اضافی در هر تکرار ساخته شده است تا به طور خصوصی “ویژگی های داغ” را انتخاب کند، که ویژگی هایی هستند که با مثال های آموزشی متعدد در مینی دسته فعلی فعال می شوند. همانطور که در زیر نشان داده شده است، مکانیسم در چند مرحله کار می کند:
- تعداد مثالهایی را محاسبه کنید که در هر سطل ویژگی مشارکت داشتهاند (ما هر یک از مقادیر ممکن یک ویژگی طبقهبندی را «سطل» مینامیم).
- مجموع سهم هر نمونه را با برش دادن تعداد آنها محدود کنید.
- نویز گاوسی را به تعداد مشارکت هر سطل ویژگی اضافه کنید.
- فقط ویژگی هایی را انتخاب کنید که باید در به روز رسانی گرادیان گنجانده شوند که تعداد آنها بالاتر از یک آستانه معین است (یک پارامتر کنترل کننده پراکندگی)، بنابراین پراکندگی حفظ می شود. این مکانیزم به طور متفاوت خصوصی است و هزینه حریم خصوصی را می توان به راحتی با ترکیب آن با تکرارهای استاندارد DP-SGD محاسبه کرد.
تصویری از روند الگوریتم بر روی یک ویژگی طبقه بندی مصنوعی که دارای 20 سطل است. ما تعداد نمونههایی را که به هر سطل کمک میکنند محاسبه میکنیم، مقدار را بر اساس کل مشارکتهای هر مثال (از جمله موارد مربوط به سایر ویژگیها) تنظیم میکنیم، نویز گاوسی را اضافه میکنیم، و فقط آن سطلهایی را با سهم نویز بیش از آستانه برای گرادیان (نویزدار) حفظ میکنیم. به روز رسانی. |
انگیزه نظری
ما با مشاهده آن به عنوان بهینه سازی با استفاده از اوراکل های گرادیان تصادفی، انگیزه نظری را که زمینه ساز DP-AdaFEST است، ارائه می کنیم. تجزیه و تحلیل استاندارد نزول گرادیان تصادفی در یک محیط نظری، خطای آزمون مدل را به اصطلاحات «بایاس» و «واریانس» تجزیه میکند. مزیت DP-AdaFEST را می توان به عنوان کاهش واریانس به قیمت افزایش اندکی سوگیری در نظر گرفت. این به این دلیل است که DP-AdaFEST در مقایسه با DP-SGD به مجموعه کوچکتری از مختصات نویز اضافه می کند، که نویز را به همه مختصات اضافه می کند. از سوی دیگر، DP-AdaFEST برخی سوگیری ها را به گرادیان ها معرفی می کند زیرا گرادیان در ویژگی های جاسازی با احتمال کمی حذف می شود. ما خواننده علاقه مند را برای جزئیات بیشتر به بخش 3.4 مقاله ارجاع می دهیم.
آزمایش
ما کارایی الگوریتم خود را با برنامههای کاربردی مدل جاسازی بزرگ، روی مجموعه دادههای عمومی، از جمله یک مجموعه داده پیشبینی آگهی (Criteo-Kaggle) و یک مجموعه داده درک زبان (SST-2) ارزیابی میکنیم. ما از DP-SGD با انتخاب نمایی به عنوان مقایسه پایه استفاده می کنیم.
اثربخشی DP-AdaFEST در شکل زیر مشهود است، جایی که کاهش اندازه گرادیان به طور قابلتوجهی (یعنی پراکندگی گرادیان) نسبت به خط پایه و در عین حال حفظ همان سطح مطلوبیت (یعنی تنها کاهش عملکرد حداقل) را به دست میآورد.
به طور خاص، در مجموعه داده Criteo-Kaggle، DP-AdaFEST هزینه محاسبه گرادیان DP-SGD معمولی را بیش از 5×10 کاهش می دهد.5 بار در حالی که یک AUC قابل مقایسه را حفظ می کنیم (که ما آن را به عنوان ضرر کمتر از 0.005 تعریف می کنیم). این کاهش به یک فرآیند آموزشی کارآمدتر و مقرون به صرفه تر تبدیل می شود. در مقایسه، همانطور که توسط خط سبز زیر نشان داده شده است، روش پایه قادر به کاهش هزینه معقول در چنین آستانه تلفات کوچکی نیست.
در کارهای زبانی، پتانسیل زیادی برای کاهش اندازه گرادینت ها وجود ندارد، زیرا واژگان مورد استفاده اغلب کوچکتر و در حال حاضر کاملا فشرده است (در سمت راست زیر نشان داده شده است). با این حال، اتخاذ DP-SGD با حفظ پراکندگی به طور موثری از محاسبه گرادیان متراکم جلوگیری می کند. علاوه بر این، در راستای مبادله بایاس واریانس ارائه شده در تجزیه و تحلیل نظری، خاطرنشان میکنیم که DP-AdaFEST گاهی اوقات در مقایسه با DP-SGD کاربرد برتری را نشان میدهد، زمانی که کاهش اندازه گرادیان حداقل است. برعکس، هنگام ترکیب پراکندگی، الگوریتم پایه با چالش هایی در حفظ مطلوبیت مواجه می شود.
مقایسه بهترین کاهش اندازه گرادیان (نسبت شمارش مقدار گرادیان غیر صفر بین الگوریتمهای معمولی DP-SGD و حفظ پراکندگی) که تحت ε = 1.0 توسط DP-AdaFEST (الگوریتم ما) و الگوریتم پایه (DP-) به دست آمد. SGD با انتخاب نمایی) در مقایسه با DP-SGD در آستانه های مختلف برای تفاوت مطلوبیت. منحنی بالاتر نشان دهنده یک مبادله مطلوبیت/بازده بهتر است. |
در عمل، اکثر مدلهای پیشبینی تبلیغات بهطور مداوم در حال آموزش و ارزیابی هستند. برای شبیهسازی این تنظیم یادگیری آنلاین، ما همچنین با دادههای سری زمانی ارزیابی میکنیم که به دلیل غیر ثابت بودن، بسیار چالش برانگیز هستند. ارزیابی ما از مجموعه داده Criteo-1TB استفاده میکند که شامل دادههای کلیک کاربر در دنیای واقعی است که طی 24 روز جمعآوری شده است. به طور مداوم، DP-AdaFEST هزینه محاسبه گرادیان DP-SGD معمولی را بیش از 10 کاهش می دهد.4 با حفظ AUC قابل مقایسه.
مقایسه بهترین کاهش اندازه گرادیان به دست آمده تحت ε = 1.0 توسط DP-AdaFEST (الگوریتم ما) و DP-SGD با انتخاب نمایی (یک الگوریتم قبلی) در مقایسه با DP-SGD در آستانه های مختلف برای تفاوت مطلوبیت. منحنی بالاتر نشان دهنده یک مبادله مطلوبیت/بازده بهتر است. DP-AdaFEST به طور مداوم از روش قبلی بهتر عمل می کند. |
نتیجه
ما یک الگوریتم جدید، DP-AdaFEST، برای حفظ تنک بودن گرادیان در آموزش خصوصی متفاوت ارائه میکنیم – بهویژه در برنامههایی که شامل مدلهای تعبیهشده بزرگ، ابزاری اساسی برای کاربردهای مختلف در سیستمهای توصیه و پردازش زبان طبیعی است. الگوریتم ما به کاهش قابل توجهی در اندازه گرادیان دست می یابد و در عین حال دقت را در مجموعه داده های معیار دنیای واقعی حفظ می کند. علاوه بر این، گزینههای انعطافپذیری را برای متعادل کردن سودمندی و کارایی از طریق پارامترهای کنترل پراکندگی ارائه میدهد، در حالی که پیشنهادات ما از دست دادن حریم خصوصی بسیار بهتری را ارائه میدهد.
سپاسگزاریها
این اثر با همکاری بدیه قاضی، پریتیش کامات، راوی کومار، پسین مانورنگسی و عامر سینها بود.