مدلهای یادگیری عمیق بزرگ در حال تبدیل شدن به نیروی کار انواع وظایف مهم یادگیری ماشینی (ML) هستند. با این حال، نشان داده شده است که بدون هیچ گونه حفاظتی، برای بازیگران بد، برای فاش کردن اطلاعات از نمونههای آموزشی فردی، میتوان به انواع مدلها، در همه روشها حمله کرد. به این ترتیب، محافظت در برابر این نوع نشت اطلاعات ضروری است.
حریم خصوصی دیفرانسیل (DP) حفاظت رسمی در برابر مهاجمی که قصد استخراج اطلاعات در مورد داده های آموزشی را دارد، فراهم می کند. محبوب ترین روش برای آموزش DP در یادگیری عمیق، شیب نزولی تصادفی خصوصی متفاوت (DP-SGD) است. دستور اصلی یک موضوع مشترک را در DP پیادهسازی میکند: خروجیهای یک الگوریتم با نویز برای پنهان کردن مشارکتهای هر ورودی جداگانه.
در عمل، آموزش DP برای مدل های بسیار بزرگ می تواند بسیار گران یا حتی بی اثر باشد. نه تنها هزینه محاسباتی معمولاً هنگام نیاز به تضمین حفظ حریم خصوصی افزایش می یابد، بلکه نویز نیز به نسبت افزایش می یابد. با توجه به این چالش ها، اخیراً علاقه زیادی به توسعه روش هایی وجود داشته است که این امکان را فراهم می کند کارآمد آموزش DP هدف توسعه روشهای ساده و کاربردی برای تولید مدلهای خصوصی در مقیاس بزرگ با کیفیت بالا است.
معیار طبقه بندی ImageNet یک بستر آزمایشی مؤثر برای این هدف است زیرا 1) یک کار چالش برانگیز حتی در محیط غیر خصوصی است که به مدل های به اندازه کافی بزرگ برای طبقه بندی موفقیت آمیز تعداد زیادی از تصاویر متنوع نیاز دارد و 2) عمومی و باز است. – مجموعه داده منبع، که سایر محققان می توانند به آن دسترسی داشته باشند و برای همکاری از آن استفاده کنند. با این رویکرد، محققان ممکن است یک موقعیت عملی را شبیهسازی کنند که در آن یک مدل بزرگ برای آموزش دادههای خصوصی با ضمانتهای DP مورد نیاز است.
برای این منظور، امروز در مورد بهبودهایی که در آموزش مدلهای خصوصی با کاربرد بالا و مقیاس بزرگ ایجاد کردهایم بحث میکنیم. اول، در “آموزش انتقال در مقیاس بزرگ برای طبقه بندی تصاویر خصوصی متفاوت”، ما نتایج قوی را در مورد وظیفه چالش برانگیز طبقه بندی تصاویر در مجموعه داده ImageNet-1k با محدودیت های DP به اشتراک می گذاریم. ما نشان میدهیم که با ترکیبی از یادگیری انتقال در مقیاس بزرگ و فراپارامترهای با دقت انتخاب شده، در واقع میتوان شکاف بین عملکرد خصوصی و غیرخصوصی را حتی در وظایف چالشبرانگیز و مدلهای با ابعاد بالا به میزان قابل توجهی کاهش داد. سپس در «طبقهبندی تصویر خصوصی متفاوت از ویژگیها»، ما بیشتر نشان میدهیم که تنظیم دقیق آخرین لایه مدل از پیش آموزشدیده با الگوریتمهای بهینهسازی پیشرفتهتر، عملکرد را حتی بیشتر بهبود میبخشد و منجر به پیشرفتهترین DP میشود. نتایج در بین انواع معیارهای طبقه بندی تصویر محبوب، از جمله ImageNet-1k. برای تشویق توسعه بیشتر در این جهت و فعال کردن سایر محققان برای تأیید یافتههای ما، کد منبع مرتبط را نیز منتشر میکنیم.
انتقال یادگیری و حریم خصوصی دیفرانسیل
ایده اصلی پشت یادگیری انتقالی استفاده مجدد از دانش به دست آمده از حل یک مسئله و سپس به کار بردن آن در یک مسئله مرتبط است. این به ویژه زمانی مفید است که داده های محدود یا با کیفیت پایین برای مشکل هدف در دسترس باشد زیرا به ما امکان می دهد از دانش به دست آمده از مجموعه داده های عمومی بزرگتر و متنوع تر استفاده کنیم.
در زمینه DP، یادگیری انتقال به عنوان یک تکنیک امیدوارکننده برای بهبود دقت مدلهای خصوصی، با بهرهگیری از دانش آموختهشده از وظایف پیشآموزشی، پدیدار شده است. به عنوان مثال، اگر یک مدل قبلاً روی یک مجموعه داده عمومی بزرگ برای یک کار حساس به حریم خصوصی مشابه آموزش داده شده باشد، می توان آن را روی یک مجموعه داده کوچکتر و خاص تر برای وظیفه DP هدف تنظیم کرد. به طور خاص، ابتدا یک مدل را روی یک مجموعه داده بزرگ بدون نگرانی در مورد حریم خصوصی از قبل آموزش میدهیم و سپس به صورت خصوصی مدل را روی مجموعه داده حساس تنظیم میکنیم. در کارمان، کارایی یادگیری انتقال DP را بهبود میبخشیم و آن را با شبیهسازی آموزش خصوصی در مجموعه دادههای در دسترس عموم، یعنی ImageNet-1k، CIFAR-100، و CIFAR-10 نشان میدهیم.
قبل از تمرین بهتر عملکرد DP را بهبود می بخشد
برای شروع بررسی اینکه چگونه یادگیری انتقال می تواند برای وظایف طبقه بندی تصاویر خصوصی متفاوت موثر باشد، ما به دقت فراپارامترهای موثر بر عملکرد DP را بررسی کردیم. با کمال تعجب، ما متوجه شدیم که با فراپارامترهای با دقت انتخاب شده (به عنوان مثال، مقداردهی اولیه لایه آخر به صفر و انتخاب اندازه های دسته بزرگ)، تنظیم دقیق فقط آخرین لایه از یک مدل از پیش آموزش دیده، پیشرفت های قابل توجهی را نسبت به خط پایه ایجاد می کند. آموزش فقط آخرین لایه نیز به طور قابل توجهی نسبت هزینه به کاربرد آموزش یک مدل طبقه بندی تصویر با کیفیت بالا با DP را بهبود می بخشد.
همانطور که در زیر نشان داده شده است، ما عملکرد بهترین پیشنهادات هایپرپارامتر را در ImageNet با و بدون حریم خصوصی و در انواع مدلها و اندازههای دادههای قبل از آموزش مقایسه میکنیم. ما متوجه شدیم که مقیاسبندی مدل و استفاده از مجموعه دادههای پیشآموزشی بزرگتر، شکاف در دقت ناشی از اضافه شدن تضمین حریم خصوصی را کاهش میدهد. به طور معمول، ضمانتهای حفظ حریم خصوصی یک سیستم با پارامتر ε مثبت مشخص میشوند که ε کوچکتر مربوط به حفظ حریم خصوصی بهتر است. در شکل زیر از ضمانت حفظ حریم خصوصی ε = 10 استفاده می کنیم.
مقایسه بهترین مدلهای ما با و بدون حریم خصوصی در ImageNet در میان اندازههای داده مدل و قبل از آموزش. محور X مدلهای مختلف Vision Transformer را که برای این مطالعه استفاده کردیم به ترتیب صعودی اندازه مدل از چپ به راست نشان میدهد. ما از JFT-300M برای پیشآموزش مدلهای B/16، L/16 و H/14، JFT-4B (نسخه بزرگتر JFT-3B) برای پیشآموزش H/14-4b و JFT-3B برای پیشآموزش G/14-3b استفاده کردیم. . ما این کار را به منظور بررسی اثربخشی مقیاسبندی مشترک مدل و مجموعه دادههای پیشآموزشی (JFT-3B یا 4B) انجام میدهیم. محور Y دقت Top-1 را در مجموعه آزمایشی ImageNet-1k پس از تنظیم دقیق مدل (به صورت خصوصی یا غیرخصوصی) با مجموعه آموزشی ImageNet-1k نشان می دهد. ما به طور مداوم می بینیم که مقیاس بندی مدل و اندازه مجموعه داده قبل از آموزش، شکاف در دقت ناشی از اضافه شدن ضمانت حفظ حریم خصوصی ε = 10 را کاهش می دهد. |
بهینه سازهای بهتر عملکرد DP را بهبود می بخشند
با کمال تعجب متوجه شدیم که آموزش خصوصی فقط آخرین لایه یک مدل از پیش آموزش دیده بهترین ابزار را با DP ارائه می دهد. در حالی که مطالعات گذشته [1, 2, 3] تا حد زیادی به استفاده از الگوریتمهای آموزش خصوصی متفاوت درجه اول مانند DP-SGD برای آموزش مدلهای بزرگ متکی است، در مورد خاص یادگیری خصوصی فقط آخرین لایه از ویژگیها، مشاهده میکنیم که بار محاسباتی اغلب به اندازهای کم است که امکان طرحهای بهینهسازی پیچیدهتر را فراهم میکند. از جمله روشهای مرتبه دوم (مثلاً روشهای نیوتن یا شبه نیوتن)، که میتوانند دقیقتر و همچنین از نظر محاسباتی گرانتر باشند.
در “طبقه بندی تصاویر خصوصی متفاوت از ویژگی ها”، ما به طور سیستماتیک تأثیر توابع از دست دادن و الگوریتم های بهینه سازی را بررسی می کنیم. ما متوجه شدیم که در حالی که رگرسیون لجستیک که معمولاً استفاده می شود بهتر از رگرسیون خطی در محیط غیر خصوصی عمل می کند، وضعیت در محیط خصوصی برعکس است: رگرسیون خطی حداقل مربعات از رگرسیون لجستیک هم از نظر حریم خصوصی و هم از دیدگاه محاسباتی بسیار مؤثرتر است. محدوده معمولی مقادیر ε ([1, 10]و حتی برای مقادیر اپسیلون سختتر (ε < 1) موثرتر است.
ما بیشتر با استفاده از روش DP نیوتن برای حل بررسی می کنیم لجستیکی پسرفت. ما متوجه شدیم که این هنوز با رگرسیون خطی DP در رژیم حفظ حریم خصوصی بالا بهتر است. در واقع، روش نیوتن شامل محاسبه یک Hessian (ماتریسی که اطلاعات مرتبه دوم را جمعآوری میکند) است و خصوصی کردن متفاوت این ماتریس مستلزم افزودن نویز بسیار بیشتری در رگرسیون لجستیک نسبت به رگرسیون خطی است که دارای هسین بسیار ساختار یافته است.
با تکیه بر این مشاهدات، روشی را معرفی می کنیم که آن را فراخوانی می کنیم SGD خصوصی متفاوت با کوواریانس ویژگی (DP-FC)، که در آن به سادگی هسین را در رگرسیون لجستیک با کوواریانس ویژگی خصوصی شده جایگزین می کنیم. از آنجایی که کوواریانس ویژگی فقط به ورودیها بستگی دارد (و نه به پارامترهای مدل و نه برچسبهای کلاس)، ما میتوانیم آن را در کلاسها و تکرارهای آموزشی به اشتراک بگذاریم، بنابراین میزان نویز مورد نیاز برای محافظت از آن را تا حد زیادی کاهش میدهیم. این به ما امکان می دهد مزایای استفاده از رگرسیون لجستیک را با حفاظت از حریم خصوصی کارآمد رگرسیون خطی ترکیب کنیم، که منجر به بهبود مبادله حریم خصوصی و ابزار مفید می شود.
با DP-FC، تنها با انجام تنظیمات دقیق DP بر روی ویژگی های استخراج شده از یک ابزار قدرتمند، به طور قابل توجهی در سه معیار طبقه بندی تصاویر خصوصی، یعنی ImageNet-1k، CIFAR-10 و CIFAR-100، از نتایج پیشرفته قبلی پیشی می گیریم. مدل از پیش آموزش دیده
مقایسه دقت بالای 1 (محور Y) با تنظیم دقیق خصوصی با استفاده از روش DP-FC در هر سه مجموعه داده در محدوده ε (محور X). مشاهده میکنیم که پیشآموزش بهتر حتی بیشتر به مقادیر کمتر ε (ضمانت حفظ حریم خصوصی سختتر) کمک میکند. |
نتیجه
ما نشان میدهیم که پیشآموزش در مقیاس بزرگ بر روی یک مجموعه داده عمومی یک استراتژی مؤثر برای به دست آوردن نتایج خوب در صورت تنظیم دقیق خصوصی است. علاوه بر این، مقیاسبندی اندازه مدل و مجموعه دادههای قبل از آموزش عملکرد مدل خصوصی را بهبود میبخشد و شکاف کیفیت را در مقایسه با مدل غیرخصوصی کاهش میدهد. ما بیشتر استراتژی هایی را برای استفاده موثر از یادگیری انتقالی برای DP ارائه می کنیم. توجه داشته باشید که این کار دارای چندین محدودیت است که ارزش در نظر گرفتن دارد – از همه مهمتر رویکرد ما به در دسترس بودن یک مجموعه داده عمومی بزرگ و قابل اعتماد است که می تواند برای منبع و بررسی چالش برانگیز باشد. امیدواریم کار ما برای آموزش مدل های بزرگ با تضمین حریم خصوصی معنی دار مفید باشد!
سپاسگزاریها
علاوه بر نویسندگان این وبلاگ، این تحقیق توسط Abhradeep Thakurta، Alex Kurakin و Ashok Cutkosky انجام شده است. ما همچنین از توسعه دهندگان کتابخانه های Jax، Flax و Scenic سپاسگزاریم. به طور خاص، از مصطفی دهقانی برای کمک به ما در زمینه خطوط پایه دید منظره و با کارایی بالا و لوکاس بیر برای کمک به حذف داده های JFT تشکر می کنیم. همچنین از Li Zhang، Emil Praun، Andreas Terzis، Shuang Song، Pierre Tholoniat، Roxana Geambasu، و Steve Chien برای تحریک بحث در مورد حریم خصوصی متفاوت در طول پروژه سپاسگزاریم. علاوه بر این، ما از داوران ناشناس، گوتام کامات و وارون کاناد برای بازخورد مفید در طول فرآیند انتشار تشکر می کنیم. در نهایت، مایلیم از جان اندرسون و کورینا کورتس از Google Research، Borja Balle، Soham De، Sam Smith، Leonard Berrada و Jamie Hayes از DeepMind برای بازخورد سخاوتمندانه تشکر کنیم.