پیش بینی تبلیغات خصوصی با DP-SGD – وبلاگ هوش مصنوعی گوگل

ارائه دهندگان فناوری تبلیغات به طور گسترده از مدل‌های یادگیری ماشینی (ML) برای پیش‌بینی و ارائه مرتبط‌ترین تبلیغات به کاربران و اندازه‌گیری اثربخشی آن تبلیغات استفاده می‌کنند. با افزایش تمرکز بر حریم خصوصی آنلاین، فرصتی برای شناسایی الگوریتم‌های ML وجود دارد که دارای معاوضه‌های بهتری برای حفظ حریم خصوصی هستند. حریم خصوصی دیفرانسیل (DP) به عنوان یک چارچوب محبوب برای توسعه الگوریتم های ML به طور مسئولانه با تضمین های حفظ حریم خصوصی قابل اثبات پدیدار شده است. این به طور گسترده در ادبیات حفظ حریم خصوصی مورد مطالعه قرار گرفته است، در برنامه های کاربردی صنعتی مستقر شده و توسط سرشماری ایالات متحده به کار گرفته شده است. به طور شهودی، چارچوب DP، مدل‌های ML را قادر می‌سازد تا ویژگی‌های کل جمعیت را یاد بگیرند، در حالی که از اطلاعات سطح کاربر محافظت می‌کند.

هنگام آموزش مدل های ML، الگوریتم ها یک مجموعه داده را به عنوان ورودی خود می گیرند و یک مدل آموزش دیده را به عنوان خروجی تولید می کنند. نزول گرادیان تصادفی (SGD) یک الگوریتم آموزشی غیرخصوصی است که معمولاً مورد استفاده قرار می گیرد که گرادیان متوسط ​​را از زیر مجموعه ای تصادفی از مثال ها محاسبه می کند (به نام یک مینی دسته) و از آن برای نشان دادن جهتی که مدل باید به سمت آن حرکت کند تا با آن دسته کوچک مطابقت داشته باشد، استفاده می کند. پرکاربردترین الگوریتم آموزشی DP در یادگیری عمیق، توسعه SGD به نام DP-SGD است.

DP-SGD شامل دو مرحله اضافی است: 1) قبل از میانگین‌گیری، اگر هنجار L2 گرادیان از یک آستانه از پیش تعریف‌شده فراتر رود، گرادیان هر مثال هنجار بریده می‌شود. و 2) نویز گاوسی قبل از به روز رسانی مدل به گرادیان متوسط ​​اضافه می شود. DP-SGD را می توان با جایگزین کردن بهینه ساز، مانند SGD یا Adam، با انواع DP خود، با هر خط لوله یادگیری عمیق موجود با حداقل تغییرات سازگار کرد. با این حال، استفاده از DP-SGD در عمل می‌تواند منجر به از دست دادن قابل‌توجه مطلوبیت مدل (یعنی دقت) با سربار محاسباتی بزرگ شود. در نتیجه، تحقیقات مختلف تلاش می‌کنند تا آموزش DP-SGD را بر روی مسائل کاربردی‌تر و در مقیاس بزرگ‌تر یادگیری عمیق اعمال کنند. مطالعات اخیر همچنین نتایج امیدوارکننده‌ای برای آموزش DP در بینایی کامپیوتر و مشکلات پردازش زبان طبیعی نشان داده‌اند.

در “مدل سازی تبلیغات خصوصی با DP-SGD”، ما یک مطالعه سیستماتیک از آموزش DP-SGD در مورد مشکلات مدل سازی تبلیغات ارائه می دهیم، که چالش های منحصر به فردی را در مقایسه با وظایف بینایی و زبان ایجاد می کند. مجموعه داده‌های تبلیغات اغلب دارای عدم تعادل بالایی بین کلاس‌های داده هستند و از ویژگی‌های طبقه‌بندی با تعداد زیادی مقادیر منحصربه‌فرد تشکیل شده‌اند که منجر به مدل‌هایی می‌شود که لایه‌های تعبیه‌شده بزرگ و به‌روزرسانی‌های گرادیان بسیار پراکنده دارند. با این مطالعه، ما نشان می‌دهیم که DP-SGD به مدل‌های پیش‌بینی آگهی اجازه می‌دهد تا به صورت خصوصی با شکاف کاربردی بسیار کمتر از آنچه قبلاً انتظار می‌رفت، آموزش داده شوند، حتی در رژیم حفظ حریم خصوصی بالا. علاوه بر این، ما نشان می‌دهیم که با اجرای صحیح، محاسبات و سربار حافظه آموزش DP-SGD می‌تواند به میزان قابل توجهی کاهش یابد.

ارزیابی

ما آموزش خصوصی را با استفاده از سه کار پیش‌بینی تبلیغات ارزیابی می‌کنیم: (1) پیش‌بینی نرخ کلیک (pCTR) برای یک تبلیغ، (2) پیش‌بینی نرخ تبدیل (pCVR) برای یک آگهی پس از یک کلیک، و 3) پیش‌بینی تعداد مورد انتظار از تبدیل (pConvs) پس از کلیک بر روی تبلیغ. برای pCTR، ما از مجموعه داده Criteo استفاده می کنیم، که یک معیار عمومی پرکاربرد برای مدل های pCTR است. ما pCVR و pConvs را با استفاده از مجموعه داده‌های داخلی Google ارزیابی می‌کنیم. pCTR و pCVR مشکلات طبقه‌بندی باینری هستند که با از دست دادن آنتروپی متقاطع باینری آموزش داده شده‌اند و ما افت AUC آزمایشی را گزارش می‌کنیم (یعنی 1 – AUC). pConvs یک مشکل رگرسیونی است که با از دست دادن گزارش پواسون (PLL) آموزش داده شده است و ما آزمایش PLL را گزارش می کنیم.

برای هر کار، ما مبادله حریم خصوصی و ابزار DP-SGD را با افزایش نسبی در از دست دادن مدل‌های آموزش‌دیده خصوصی تحت بودجه‌های مختلف حریم خصوصی (به عنوان مثال، از دست دادن حریم خصوصی) ارزیابی می‌کنیم. بودجه حفظ حریم خصوصی با یک اسکالر مشخص می شود ه، جایی که پایین تر است ه نشان دهنده حریم خصوصی بالاتر است. برای اندازه‌گیری شکاف سودمندی بین آموزش خصوصی و غیرخصوصی، افزایش نسبی ضرر را در مقایسه با مدل غیرخصوصی محاسبه می‌کنیم (معادل ه = ∞). مشاهدات اصلی ما این است که در هر سه کار رایج پیش‌بینی آگهی، افزایش ضرر نسبی را می‌توان بسیار کمتر از آنچه قبلاً انتظار می‌رفت، حتی برای رژیم‌های حریم خصوصی بسیار بالا (به عنوان مثال ε <= 1) انجام داد.

نتایج DP-SGD بر روی سه وظیفه پیش‌بینی تبلیغات است. افزایش نسبی ضرر در برابر خط پایه غیر خصوصی محاسبه می شود (یعنی ه = ∞) مدل هر کار.

بهبود حسابداری حریم خصوصی

حسابداری حریم خصوصی بودجه حریم خصوصی را برآورد می کند (ه) برای یک مدل آموزش دیده DP-SGD، با توجه به ضرب کننده نویز گاوسی و سایر فراپارامترهای آموزشی. حسابداری Rényi Differential Privacy (RDP) پرکاربردترین رویکرد در DP-SGD از زمان مقاله اصلی بوده است. ما آخرین پیشرفت‌ها در روش‌های حسابداری را برای ارائه برآوردهای دقیق‌تر بررسی می‌کنیم. به طور خاص، ما از اتصال نقاط برای حسابداری بر اساس توزیع از دست دادن حریم خصوصی (PLD) استفاده می کنیم. شکل زیر این حسابداری بهبود یافته را با حسابداری RDP کلاسیک مقایسه می کند و نشان می دهد که حسابداری PLD AUC را در مجموعه داده pCTR برای تمام بودجه های حریم خصوصی بهبود می بخشد.ه).

آموزش دسته بزرگ

اندازه دسته ای یک فراپارامتر است که بر جنبه های مختلف آموزش DP-SGD تأثیر می گذارد. به عنوان مثال، افزایش اندازه دسته می تواند میزان نویز اضافه شده در طول آموزش را تحت ضمانت حفظ حریم خصوصی یکسان کاهش دهد، که واریانس آموزشی را کاهش می دهد. اندازه دسته همچنین از طریق پارامترهای دیگر، مانند احتمال نمونه برداری فرعی و مراحل آموزشی، بر تضمین حریم خصوصی تأثیر می گذارد. هیچ فرمول ساده ای برای تعیین کمیت تأثیر اندازه دسته وجود ندارد. با این حال، رابطه بین اندازه دسته و مقیاس نویز با استفاده از حسابداری حریم خصوصی، که مقیاس نویز مورد نیاز (که بر حسب انحراف استاندارد اندازه‌گیری می‌شود) را تحت یک بودجه حفظ حریم خصوصی محاسبه می‌کند، اندازه‌گیری می‌شود.ه) هنگام استفاده از یک اندازه دسته خاص. شکل زیر چنین روابطی را در دو سناریو مختلف نشان می دهد. سناریوی اول از دوره‌های ثابت استفاده می‌کند، که در آن تعداد عبور از مجموعه داده آموزشی را ثابت می‌کنیم. در این حالت، تعداد مراحل آموزش با افزایش اندازه دسته کاهش می‌یابد که می‌تواند منجر به کم‌آموزی مدل شود. دومین سناریوی ساده تر از مراحل آموزشی ثابت (مراحل ثابت) استفاده می کند.

رابطه بین اندازه دسته و مقیاس نویز. حسابداری حریم خصوصی به یک انحراف استاندارد نویز نیاز دارد که با افزایش اندازه دسته ای کاهش می یابد تا بودجه حریم خصوصی مشخصی برآورده شود. در نتیجه، با استفاده از اندازه های دسته ای بسیار بزرگتر از خط پایه غیر خصوصی (که با خط نقطه چین عمودی نشان داده می شود)، مقیاس نویز گاوسی اضافه شده توسط DP-SGD می تواند به طور قابل توجهی کاهش یابد.

علاوه بر اجازه دادن به مقیاس نویز کوچک‌تر، اندازه‌های دسته‌ای بزرگ‌تر همچنین به ما اجازه می‌دهند تا از آستانه بزرگ‌تری برای برش هنجار هر گرادیان برای هر نمونه، همانطور که توسط DP-SGD نیاز است، استفاده کنیم. از آنجایی که مرحله برش هنجار، سوگیری‌هایی را در برآورد گرادیان متوسط ​​معرفی می‌کند، این آرامش، چنین سوگیری‌هایی را کاهش می‌دهد. جدول زیر نتایج مربوط به مجموعه داده Criteo را برای pCTR با اندازه دسته ای استاندارد (1024 نمونه) و اندازه دسته بزرگ (16384 نمونه)، همراه با برش بزرگ و افزایش دوره های آموزشی مقایسه می کند. مشاهده می‌کنیم که آموزش دسته‌ای بزرگ به طور قابل‌توجهی کاربرد مدل را بهبود می‌بخشد. توجه داشته باشید که برش بزرگ فقط با اندازه های بزرگ امکان پذیر است. همچنین مشخص شد که آموزش دسته‌ای بزرگ برای آموزش DP-SGD در حوزه‌های زبان و بینایی رایانه ضروری است.

اثرات تمرین دسته ای بزرگ برای سه بودجه مختلف حریم خصوصی (همشاهده می کنیم که هنگام آموزش مدل های pCTR با اندازه دسته بزرگ (16384)، AUC به طور قابل توجهی بیشتر از اندازه دسته معمولی (1024) است.

محاسبه هنجار گرادیان سریع برای هر مثال

محاسبه هنجار گرادیان هر مثال که برای DP-SGD استفاده می شود، اغلب باعث سربار محاسباتی و حافظه می شود. این محاسبه کارایی پس انتشار استاندارد را در شتاب دهنده ها (مانند GPU) که ​​گرادیان متوسط ​​را برای یک دسته بدون تحقق هر گرادیان هر مثال محاسبه می کنند، حذف می کند. با این حال، برای انواع لایه های شبکه عصبی خاص، یک الگوریتم محاسبه هنجار گرادیان کارآمد، گرادیان هر مثال را امکان پذیر می کند. هنجار بدون نیاز به مادیت کردن گرادیان هر مثال محاسبه شود بردار. همچنین خاطرنشان می‌کنیم که این الگوریتم می‌تواند مدل‌های شبکه عصبی را که بر روی لایه‌های تعبیه شده و لایه‌های کاملاً متصل برای حل مشکلات پیش‌بینی تبلیغات متکی هستند، به طور موثر مدیریت کند. با ترکیب این دو مشاهده، ما از این الگوریتم برای پیاده سازی نسخه سریع الگوریتم DP-SGD استفاده می کنیم. ما نشان می‌دهیم که Fast-DP-SGD در pCTR می‌تواند تعداد مشابهی از نمونه‌های آموزشی و حداکثر اندازه دسته‌ای را روی یک هسته واحد پردازشگر گرافیکی به‌عنوان یک پایه غیرخصوصی انجام دهد.

راندمان محاسباتی اجرای سریع ما (Fast-DP-SGD) در pCTR.

در مقایسه با خط پایه غیر خصوصی، توان عملیاتی آموزشی مشابه است، به جز در اندازه های بسیار کوچک دسته ای. ما همچنین آن را با یک پیاده‌سازی با استفاده از کامپایل JAX Just-in-Time (JIT) مقایسه می‌کنیم، که در حال حاضر بسیار سریع‌تر از پیاده‌سازی وانیلی DP-SGD است. پیاده سازی ما نه تنها سریعتر است، بلکه کارآمدتر حافظه نیز می باشد. پیاده‌سازی مبتنی بر JIT نمی‌تواند اندازه‌های دسته‌ای بزرگ‌تر از 64 را مدیریت کند، در حالی که پیاده‌سازی ما می‌تواند اندازه‌های دسته‌ای تا 500000 را مدیریت کند. کارایی حافظه برای فعال کردن آموزش دسته‌ای بزرگ مهم است، که در بالا نشان داده شد که برای بهبود کاربرد مهم است.

نتیجه

ما نشان داده‌ایم که آموزش مدل‌های پیش‌بینی تبلیغات خصوصی با استفاده از DP-SGD که دارای شکاف کاربردی کوچکی در مقایسه با خطوط پایه غیرخصوصی هستند، با حداقل هزینه برای محاسبات و مصرف حافظه امکان‌پذیر است. ما معتقدیم که فضایی برای کاهش بیشتر شکاف ابزار از طریق تکنیک هایی مانند قبل از آموزش وجود دارد. لطفاً مقاله را برای جزئیات کامل آزمایش ها ببینید.

سپاسگزاریها

این کار با همکاری کارسون دنیسون، بدیه غازی، پریتیش کامات، راوی کومار، پسین مانورنگسی، عامر سینها و آویناش وارادارجان انجام شد. ما از Silvano Bonacina و Samuel Ieong برای بسیاری از بحث های مفید تشکر می کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور