آموزش خصوصی متفاوت با حفظ پراکندگی - وبلاگ تحقیقاتی گوگل - سئو PBN

ارسال شده توسط Yangsibo Huang، کارآموز پژوهشی، Google Research. چییوان ژانگ، پژوهشگر، پژوهشگر گوگل

مدل های جاسازی بزرگ به عنوان یک ابزار اساسی برای کاربردهای مختلف در سیستم های توصیه ظاهر شده اند [1, 2] و پردازش زبان طبیعی [3, 4, 5]. چنین مدل‌هایی ادغام داده‌های غیر عددی را در مدل‌های یادگیری عمیق با نگاشت ویژگی‌های ورودی مقوله‌ای یا رشته‌ای با واژگان بزرگ به بردارهای نمایش با طول ثابت با استفاده از لایه‌های جاسازی امکان‌پذیر می‌سازند. این مدل‌ها به‌طور گسترده در سیستم‌های توصیه‌های شخصی‌سازی شده مستقر شده‌اند و به عملکرد پیشرفته‌ای در وظایف زبانی، مانند مدل‌سازی زبان، تحلیل احساسات و پاسخ‌گویی به سؤالات دست می‌یابند. در بسیاری از این سناریوها، حریم خصوصی یک ویژگی به همان اندازه مهم در هنگام استقرار آن مدل ها است. در نتیجه، تکنیک های مختلفی برای فعال کردن تجزیه و تحلیل داده های خصوصی پیشنهاد شده است. در میان آن‌ها، حریم خصوصی تفاضلی (DP) یک تعریف به‌طور گسترده پذیرفته شده است که قرار گرفتن در معرض اطلاعات فردی کاربر را محدود می‌کند و در عین حال امکان تجزیه و تحلیل الگوهای سطح جمعیت را نیز فراهم می‌کند.

برای آموزش شبکه های عصبی عمیق با ضمانت DP، پرکاربردترین الگوریتم DP-SGD (DP stochastic gradient descent) است. یکی از اجزای کلیدی DP-SGD اضافه کردن نویز گاوسی به هر مختصات بردارهای گرادیان در طول آموزش است. با این حال، این باعث ایجاد چالش‌های مقیاس‌پذیری در هنگام اعمال می‌شود مدل های جاسازی بزرگ، زیرا برای آموزش کارآمد به پراکندگی گرادیان متکی هستند، اما اضافه کردن نویز به همه مختصات، پراکندگی را از بین می برد.

برای کاهش این مشکل پراکندگی گرادیان، در «آموزش خصوصی متفاوت با حفظ پراکندگی مدل‌های جاسازی بزرگ» (که در NeurIPS 2023 ارائه خواهد شد)، الگوریتم جدیدی به نام پیشنهاد می‌کنیم. آموزش پراکنده با قابلیت فیلتر تطبیقی (DP-AdaFEST). در سطح بالایی، الگوریتم با انتخاب تنها زیرمجموعه‌ای از ردیف‌های ویژگی که در هر تکرار به آن نویز اضافه می‌شود، پراکندگی گرادیان را حفظ می‌کند. نکته کلیدی این است که چنین انتخاب هایی به طور متفاوت خصوصی شود تا تعادل سه طرفه بین هزینه حفظ حریم خصوصی، کارایی آموزش و کاربرد مدل حاصل شود. ارزیابی تجربی ما نشان می‌دهد که DP-AdaFEST با کاهش اندازه گرادیان بیش از 10 به یک گرادیان بسیار کم‌تر دست می‌یابد.⁵X در مقایسه با گرادیان متراکم تولید شده توسط استاندارد DP-SGD، در حالی که سطوح دقت قابل مقایسه ای را حفظ می کند. این کاهش اندازه گرادیان می تواند به بهبود 20 برابری زمان ساعت دیواری تبدیل شود.

بررسی اجمالی

برای درک بهتر چالش ها و راه حل های ما برای مشکل پراکندگی گرادیان، اجازه دهید با مروری بر نحوه عملکرد DP-SGD در طول آموزش شروع کنیم. همانطور که در شکل زیر نشان داده شده است، DP-SGD با برش سهم گرادیان از هر مثال در زیر مجموعه تصادفی فعلی نمونه ها (که یک دسته کوچک نامیده می شود)، و اضافه کردن نویز گاوسی مختصات به گرادیان متوسط در طول هر تکرار تصادفی عمل می کند. شیب نزول (SGD). DP-SGD اثربخشی خود را در حفاظت از حریم خصوصی کاربر و در عین حال حفظ مطلوبیت مدل در برنامه های مختلف نشان داده است. [6, 7].

تصویری از نحوه عملکرد DP-SGD. در طول هر مرحله آموزشی، یک دسته کوچک از نمونه‌ها نمونه‌برداری می‌شود و برای محاسبه گرادیان‌های هر مثال استفاده می‌شود. این شیب ها از طریق برش، تجمع و جمع نویز گاوسی پردازش می شوند تا شیب های خصوصی سازی شده نهایی تولید شوند.

چالش‌های اعمال DP-SGD در مدل‌های جاسازی بزرگ عمدتاً از 1) فیلدهای ویژگی غیر عددی مانند شناسه‌ها و دسته‌های کاربر/محصول، و 2) کلمات و نشانه‌هایی که از طریق یک لایه جاسازی به بردارهای متراکم تبدیل می‌شوند، ناشی می‌شوند. با توجه به اندازه واژگان این ویژگی ها، این فرآیند به جداول جاسازی بزرگ با تعداد قابل توجهی از پارامترها نیاز دارد. برخلاف تعداد پارامترها، به‌روزرسانی‌های گرادیان معمولاً بسیار پراکنده هستند، زیرا هر نمونه کوچک از نمونه‌ها فقط بخش کوچکی از ردیف‌های جاسازی شده را فعال می‌کند (شکل زیر نسبت مختصات با ارزش صفر را نشان می‌دهد، یعنی پراکندگی گرادیان در اندازه های دسته ای مختلف). این پراکندگی به شدت برای کاربردهای صنعتی که به طور موثر آموزش تعبیه‌های در مقیاس بزرگ را مدیریت می‌کنند، مورد استفاده قرار می‌گیرد. به عنوان مثال، Google Cloud TPU، شتاب‌دهنده‌های هوش مصنوعی طراحی‌شده سفارشی که برای آموزش و استنتاج مدل‌های هوش مصنوعی بزرگ بهینه‌سازی شده‌اند، API‌های اختصاصی برای مدیریت جاسازی‌های بزرگ با به‌روزرسانی‌های پراکنده دارند. این منجر به بهبود قابل توجهی توان عملیاتی آموزشی در مقایسه با آموزش بر روی پردازنده‌های گرافیکی می‌شود، که در این سطح بالا، الگوریتم تنها با انتخاب زیرمجموعه‌ای از ردیف‌های ویژگی که نویز در هر تکرار به آن اضافه می‌شود، پراکندگی گرادیان را حفظ می‌کند. زمان بهینه سازی تخصصی برای جستجوهای جاسازی پراکنده نداشت. از طرف دیگر، DP-SGD به طور کامل پراکندگی گرادیان را از بین می برد زیرا نیاز به اضافه کردن نویز گاوسی مستقل به آن دارد. همه مختصات این یک مانع برای آموزش خصوصی مدل‌های تعبیه‌شده بزرگ ایجاد می‌کند، زیرا راندمان آموزشی در مقایسه با آموزش غیرخصوصی به طور قابل‌توجهی کاهش می‌یابد.

تعبیه پراکندگی گرادیان (کسری از مختصات گرادیان با مقدار صفر) در مدل Criteo pCTR (به زیر مراجعه کنید). این شکل، پراکندگی گرادیان، به طور میانگین بیش از 50 مرحله به‌روزرسانی، از پنج ویژگی طبقه‌بندی برتر (از مجموع 26 مورد) با بیشترین تعداد سطل، و همچنین پراکندگی همه ویژگی‌های طبقه‌بندی را گزارش می‌کند. پراکندگی با اندازه دسته کاهش می‌یابد زیرا نمونه‌های بیشتر به ردیف‌های بیشتری در جدول جاسازی می‌رسند و شیب‌های غیر صفر ایجاد می‌کنند. با این حال، پراکندگی بالای 0.97 حتی برای اندازه های دسته ای بسیار بزرگ است. این الگو به طور مداوم برای تمام پنج ویژگی مشاهده می شود.

الگوریتم

الگوریتم ما با گسترش DP-SGD استاندارد با یک مکانیسم اضافی در هر تکرار ساخته شده است تا به طور خصوصی “ویژگی های داغ” را انتخاب کند، که ویژگی هایی هستند که با مثال های آموزشی متعدد در مینی دسته فعلی فعال می شوند. همانطور که در زیر نشان داده شده است، مکانیسم در چند مرحله کار می کند:

تعداد مثال‌هایی را محاسبه کنید که در هر سطل ویژگی مشارکت داشته‌اند (ما هر یک از مقادیر ممکن یک ویژگی طبقه‌بندی را «سطل» می‌نامیم).
مجموع سهم هر نمونه را با برش دادن تعداد آنها محدود کنید.
نویز گاوسی را به تعداد مشارکت هر سطل ویژگی اضافه کنید.
فقط ویژگی هایی را انتخاب کنید که باید در به روز رسانی گرادیان گنجانده شوند که تعداد آنها بالاتر از یک آستانه معین است (یک پارامتر کنترل کننده پراکندگی)، بنابراین پراکندگی حفظ می شود. این مکانیزم به طور متفاوت خصوصی است و هزینه حریم خصوصی را می توان به راحتی با ترکیب آن با تکرارهای استاندارد DP-SGD محاسبه کرد.

تصویری از روند الگوریتم بر روی یک ویژگی طبقه بندی مصنوعی که دارای 20 سطل است. ما تعداد نمونه‌هایی را که به هر سطل کمک می‌کنند محاسبه می‌کنیم، مقدار را بر اساس کل مشارکت‌های هر مثال (از جمله موارد مربوط به سایر ویژگی‌ها) تنظیم می‌کنیم، نویز گاوسی را اضافه می‌کنیم، و فقط آن سطل‌هایی را با سهم نویز بیش از آستانه برای گرادیان (نویزدار) حفظ می‌کنیم. به روز رسانی.

انگیزه نظری

ما با مشاهده آن به عنوان بهینه سازی با استفاده از اوراکل های گرادیان تصادفی، انگیزه نظری را که زمینه ساز DP-AdaFEST است، ارائه می کنیم. تجزیه و تحلیل استاندارد نزول گرادیان تصادفی در یک محیط نظری، خطای آزمون مدل را به اصطلاحات «بایاس» و «واریانس» تجزیه می‌کند. مزیت DP-AdaFEST را می توان به عنوان کاهش واریانس به قیمت افزایش اندکی سوگیری در نظر گرفت. این به این دلیل است که DP-AdaFEST در مقایسه با DP-SGD به مجموعه کوچکتری از مختصات نویز اضافه می کند، که نویز را به همه مختصات اضافه می کند. از سوی دیگر، DP-AdaFEST برخی سوگیری ها را به گرادیان ها معرفی می کند زیرا گرادیان در ویژگی های جاسازی با احتمال کمی حذف می شود. ما خواننده علاقه مند را برای جزئیات بیشتر به بخش 3.4 مقاله ارجاع می دهیم.

آزمایش

ما کارایی الگوریتم خود را با برنامه‌های کاربردی مدل جاسازی بزرگ، روی مجموعه داده‌های عمومی، از جمله یک مجموعه داده پیش‌بینی آگهی (Criteo-Kaggle) و یک مجموعه داده درک زبان (SST-2) ارزیابی می‌کنیم. ما از DP-SGD با انتخاب نمایی به عنوان مقایسه پایه استفاده می کنیم.

اثربخشی DP-AdaFEST در شکل زیر مشهود است، جایی که کاهش اندازه گرادیان به طور قابل‌توجهی (یعنی پراکندگی گرادیان) نسبت به خط پایه و در عین حال حفظ همان سطح مطلوبیت (یعنی تنها کاهش عملکرد حداقل) را به دست می‌آورد.

به طور خاص، در مجموعه داده Criteo-Kaggle، DP-AdaFEST هزینه محاسبه گرادیان DP-SGD معمولی را بیش از 5×10 کاهش می دهد.⁵ بار در حالی که یک AUC قابل مقایسه را حفظ می کنیم (که ما آن را به عنوان ضرر کمتر از 0.005 تعریف می کنیم). این کاهش به یک فرآیند آموزشی کارآمدتر و مقرون به صرفه تر تبدیل می شود. در مقایسه، همانطور که توسط خط سبز زیر نشان داده شده است، روش پایه قادر به کاهش هزینه معقول در چنین آستانه تلفات کوچکی نیست.

در کارهای زبانی، پتانسیل زیادی برای کاهش اندازه گرادینت ها وجود ندارد، زیرا واژگان مورد استفاده اغلب کوچکتر و در حال حاضر کاملا فشرده است (در سمت راست زیر نشان داده شده است). با این حال، اتخاذ DP-SGD با حفظ پراکندگی به طور موثری از محاسبه گرادیان متراکم جلوگیری می کند. علاوه بر این، در راستای مبادله بایاس واریانس ارائه شده در تجزیه و تحلیل نظری، خاطرنشان می‌کنیم که DP-AdaFEST گاهی اوقات در مقایسه با DP-SGD کاربرد برتری را نشان می‌دهد، زمانی که کاهش اندازه گرادیان حداقل است. برعکس، هنگام ترکیب پراکندگی، الگوریتم پایه با چالش هایی در حفظ مطلوبیت مواجه می شود.

مقایسه بهترین کاهش اندازه گرادیان (نسبت شمارش مقدار گرادیان غیر صفر بین الگوریتم‌های معمولی DP-SGD و حفظ پراکندگی) که تحت ε = 1.0 توسط DP-AdaFEST (الگوریتم ما) و الگوریتم پایه (DP-) به دست آمد. SGD با انتخاب نمایی) در مقایسه با DP-SGD در آستانه های مختلف برای تفاوت مطلوبیت. منحنی بالاتر نشان دهنده یک مبادله مطلوبیت/بازده بهتر است.

در عمل، اکثر مدل‌های پیش‌بینی تبلیغات به‌طور مداوم در حال آموزش و ارزیابی هستند. برای شبیه‌سازی این تنظیم یادگیری آنلاین، ما همچنین با داده‌های سری زمانی ارزیابی می‌کنیم که به دلیل غیر ثابت بودن، بسیار چالش برانگیز هستند. ارزیابی ما از مجموعه داده Criteo-1TB استفاده می‌کند که شامل داده‌های کلیک کاربر در دنیای واقعی است که طی 24 روز جمع‌آوری شده است. به طور مداوم، DP-AdaFEST هزینه محاسبه گرادیان DP-SGD معمولی را بیش از 10 کاهش می دهد.⁴ با حفظ AUC قابل مقایسه.

مقایسه بهترین کاهش اندازه گرادیان به دست آمده تحت ε = 1.0 توسط DP-AdaFEST (الگوریتم ما) و DP-SGD با انتخاب نمایی (یک الگوریتم قبلی) در مقایسه با DP-SGD در آستانه های مختلف برای تفاوت مطلوبیت. منحنی بالاتر نشان دهنده یک مبادله مطلوبیت/بازده بهتر است. DP-AdaFEST به طور مداوم از روش قبلی بهتر عمل می کند.

نتیجه

ما یک الگوریتم جدید، DP-AdaFEST، برای حفظ تنک بودن گرادیان در آموزش خصوصی متفاوت ارائه می‌کنیم – به‌ویژه در برنامه‌هایی که شامل مدل‌های تعبیه‌شده بزرگ، ابزاری اساسی برای کاربردهای مختلف در سیستم‌های توصیه و پردازش زبان طبیعی است. الگوریتم ما به کاهش قابل توجهی در اندازه گرادیان دست می یابد و در عین حال دقت را در مجموعه داده های معیار دنیای واقعی حفظ می کند. علاوه بر این، گزینه‌های انعطاف‌پذیری را برای متعادل کردن سودمندی و کارایی از طریق پارامترهای کنترل پراکندگی ارائه می‌دهد، در حالی که پیشنهادات ما از دست دادن حریم خصوصی بسیار بهتری را ارائه می‌دهد.

سپاسگزاریها

این اثر با همکاری بدیه قاضی، پریتیش کامات، راوی کومار، پسین مانورنگسی و عامر سینها بود.

سئو PBN | خبر های جدید سئو و هک و سرور