الگوریتمهای یادگیری ماشین حریم خصوصی افتراقی (DP) از دادههای کاربر با محدود کردن تأثیر هر نقطه داده بر خروجی جمعآوری شده با تضمین ریاضی محافظت میکنند. ضمانت به طور مستقیم به این معناست که تغییر سهم یک کاربر منفرد نباید توزیع خروجی الگوریتم DP را تغییر دهد.
با این حال، الگوریتمهای DP نسبت به الگوریتمهای غیرخصوصی خود دقت کمتری دارند، زیرا برآورده کردن DP یک بدترین حالت نیاز: برای “پنهان کردن” تغییرات در هر کدام باید نویز اضافه کرد پتانسیل نقطه ورودی، از جمله “نقاط بعید” که تأثیر قابل توجهی بر روی تجمع دارند. برای مثال، فرض کنید میخواهیم میانگین یک مجموعه داده را به طور خصوصی تخمین بزنیم، و میدانیم که یک کره با قطر، Λ، حاوی تمام نقاط داده ممکن است. حساسیت میانگین به یک نقطه منفرد با Λ محدود می شود، و بنابراین برای اطمینان از DP کافی است که نویز متناسب با Λ را به هر مختصات میانگین اضافه کنیم.
کره ای با قطر Λ حاوی تمام نقاط داده ممکن. |
حال فرض کنید همه نقاط داده “دوستانه” هستند، به این معنی که آنها به هم نزدیک هستند، و هر یک حداکثر تا ? بر میانگین تاثیر می گذارد، که بسیار کوچکتر از Λ است. با این حال، روش سنتی برای اطمینان از DP مستلزم افزودن نویز متناسب با Λ برای محاسبه یک مجموعه داده همسایه است که حاوی یک نقطه “غیر دوستانه” اضافی است که بعید است نمونه برداری شود.
دو مجموعه داده مجاور که در یک عدد پرت متفاوت هستند. یک الگوریتم DP باید نویز متناسب با Λ را به هر مختصات اضافه کند تا این خروجی را پنهان کند. |
در «FriendlyCore: Practical Differentially Private Aggregation» که در ICML 2022 ارائه شد، یک چارچوب کلی برای محاسبه انبوههای خصوصی متفاوت معرفی میکنیم. چارچوب FriendlyCore دادهها را پیش پردازش میکند، یک زیرمجموعه «دوستانه» (هسته) استخراج میکند و در نتیجه خطای تجمیع خصوصی را که با الگوریتمهای DP سنتی مشاهده میشود کاهش میدهد. مرحله جمعآوری خصوصی نویز کمتری اضافه میکند زیرا نیازی نیست نکات غیردوستانهای را که بر روی تجمع تأثیر منفی میگذارند در نظر بگیریم.
در مثال میانگین، ابتدا اعمال می کنیم FriendlyCore برای حذف نقاط پرت، و در مرحله تجمع، نویز را متناسب با ? (نه Λ) اضافه می کنیم. چالش این است که الگوریتم کلی ما (حذف بیرونی + تجمیع) به طور متفاوت خصوصی شود. این طرح حذف نقاط پرت ما را محدود میکند و الگوریتم را تثبیت میکند به طوری که دو ورودی مجاور که با یک نقطه تفاوت دارند (پرت یا نه) باید خروجی (دوستانه) با احتمالات مشابه تولید کنند.
چارچوب FriendlyCore
ما با رسمی کردن زمانی که یک مجموعه داده در نظر گرفته می شود شروع می کنیم دوستانه، که به نوع تجمع مورد نیاز بستگی دارد و باید مجموعه داده هایی را که حساسیت انباشته برای آنها کم است، جمع آوری کند. به عنوان مثال، اگر مجموع میانگین باشد، اصطلاح دوستانه باید مجموعه داده هایی را با قطر کوچک ضبط کند.
برای انتزاع کردن کاربرد خاص، دوستی را با استفاده از یک گزاره تعریف می کنیم که در نقاط ? و ? مثبت است اگر “نزدیک” به یکدیگر باشند. به عنوان مثال، در برنامه میانگین گیری اگر فاصله بین آنها کمتر از ? باشد، ? و ? نزدیک هستند. اگر هر جفت نقطه ? و ? هر دو به نقطه سوم ? نزدیک باشند (نه لزوماً در داده ها) می گوییم که یک مجموعه داده دوستانه است (برای این گزاره).
هنگامی که ? را رفع کردیم و تعریف کردیم که یک مجموعه داده دوستانه است، دو کار باقی می ماند. اولین، ما الگوریتم FriendlyCore را می سازیم که یک زیرمجموعه دوستانه بزرگ (هسته) ورودی را به طور پایدار استخراج می کند. FriendlyCore فیلتری است که دو الزام را برآورده می کند: (1) باید موارد پرت را حذف کند تا فقط عناصری را که به بسیاری دیگر نزدیک هستند در هسته نگه دارد و (2) برای مجموعه داده های مجاور که با یک عنصر متفاوت هستند، ?، فیلتر هر عنصر را خروجی می کند. به جز ? با احتمال تقریباً یکسان. علاوه بر این، اتحاد هسته های استخراج شده از این مجموعه داده های همسایه دوستانه است.
ایده زیربنایی FriendlyCore ساده است: احتمال اینکه یک نقطه، ?، به هسته اضافه کنیم، تابعی یکنواخت و پایدار از تعداد عناصر نزدیک به ? است. به طور خاص، اگر ? به تمام نقاط دیگر نزدیک باشد، به عنوان نقطه پرت در نظر گرفته نمی شود و با احتمال 1 می توان آن را در هسته نگه داشت.
دوم، ما توسعه می دهیم DP دوستانه الگوریتمی که مفهوم ضعیف تری از حریم خصوصی را با اضافه کردن نویز کمتر به کل ارضا می کند. این بدان معناست که نتایج تجمیع تضمین میشود که فقط برای مجموعههای داده همسایه ? و ? مشابه باشند، به طوری که اتحاد ? و ?’ باشد. دوستانه.
قضیه اصلی ما بیان میکند که اگر یک الگوریتم جمعآوری DP دوستانه را به هسته تولید شده توسط یک فیلتر با الزامات ذکر شده در بالا اعمال کنیم، آنگاه این ترکیب به معنای معمولی متفاوت است.
خوشه بندی و برنامه های کاربردی دیگر
دیگر کاربردهای روش تجمیع ما، خوشهبندی و یادگیری ماتریس کوواریانس یک توزیع گاوسی است. استفاده از FriendlyCore را برای توسعه یک الگوریتم خوشهبندی k-means خصوصی متفاوت در نظر بگیرید. با توجه به یک پایگاه داده از نقاط، آن را به زیر مجموعه های تصادفی کوچکتر با اندازه مساوی تقسیم می کنیم و خوب اجرا می کنیم. غیر-خصوصی ک-به معنای الگوریتم خوشه بندی در هر مجموعه کوچک است. اگر مجموعه داده اصلی شامل ک خوشه های بزرگ پس از آن هر زیر مجموعه کوچکتر شامل کسر قابل توجهی از هر یک از آنها خواهد بود ک خوشه ها نتیجه می شود که تاپل ها (مجموعه های مرتب شده) از کمراکزی که از الگوریتم غیر خصوصی برای هر زیر مجموعه کوچک بدست می آوریم مشابه هستند. انتظار می رود این مجموعه داده از تاپل ها دارای یک هسته بزرگ دوستانه باشد (برای تعریف مناسب نزدیکی).
ما از فریمورک خود برای جمعآوری تاپلهای حاصل استفاده میکنیم ک-مراکز (ک-جلوها). ما دو مورد را تعریف می کنیم کاگر یک تطابق بین آنها وجود داشته باشد به طوری که یک مرکز به طور قابل توجهی به جفت خود نزدیکتر از هر مرکز دیگری باشد، باید نزدیک باشند.
در این تصویر، هر جفت تاپل قرمز، آبی و سبز نزدیک به هم هستند، اما هیچ کدام به تاپل صورتی نزدیک نیستند. بنابراین تاپل صورتی توسط فیلتر ما حذف می شود و در هسته نیست. |
سپس هسته را با طرح نمونه برداری عمومی خود استخراج می کنیم و با استفاده از مراحل زیر آن را تجمیع می کنیم:
- تصادفی انتخاب کنید ک-تبلی ? از هسته.
- داده ها را با قرار دادن هر نقطه در یک سطل بر اساس نزدیکترین مرکز آن در ? تقسیم بندی کنید.
- امتیازهای هر سطل را بطور خصوصی میانگین کنید تا فینال خود را بدست آورید ک-مراکز
نتایج تجربی
در زیر نتایج تجربی الگوریتم های ما بر اساس FriendlyCore. ما آنها را در مدل حریم خصوصی دیفرانسیل صفر متمرکز (zCDP) پیادهسازی کردیم، که دقت بهتری در تنظیمات ما میدهد (با ضمانتهای حفظ حریم خصوصی مشابه با شناختهشدهتر (?، ?)-DP).
میانگین گیری
ما میانگین تخمین 800 نمونه را از یک گوسی کروی با ناشناخته منظور داشتن. ما آن را با الگوریتم مقایسه کردیم CoinPress. برخلاف FriendlyCore، CoinPress به یک کران بالای ? در هنجار میانگین نیاز دارد. شکل های زیر تاثیر روی دقت را هنگام افزایش ? یا بعد ? نشان می دهد. الگوریتم میانگینگیری ما روی مقادیر بزرگ این پارامترها بهتر عمل میکند زیرا مستقل از ? و ? است.
ترک کرد: میانگین در = 1000، متغیر ?. درست: میانگین گیری با ?= √?، متغیر ?. |
خوشه بندی
ما عملکرد الگوریتم خوشهبندی خصوصی خود را آزمایش کردیم ک-به معنای. ما آن را با الگوریتم چانگ و کامات مقایسه کردیم که مبتنی بر هشسازی حساس به مکان بازگشتی (LSH-clustering) است. برای هر آزمایش، 30 تکرار انجام دادیم و میانه ها را به همراه چندک های 0.1 و 0.9 ارائه کردیم. در هر تکرار، با از دست دادن k-means++ تلفات را عادی می کنیم (که عدد کوچکتر بهتر است).
شکل سمت چپ زیر را مقایسه می کند ک-میانگین بر روی یک مخلوط یکنواخت از هشت گاوسی جدا شده در دو بعدی نتایج حاصل می شود. برای مقادیر کوچک ? (تعداد نمونه از مخلوط)، FriendlyCore اغلب از کار می افتد و نتایج نادرست به همراه دارد. با این حال، افزایش ? احتمال موفقیت الگوریتم ما را افزایش می دهد (زیرا تاپل های تولید شده به یکدیگر نزدیکتر می شوند) و نتایج بسیار دقیقی را به همراه دارد، در حالی که خوشه بندی LSH عقب است.
ترک کرد: ک-به معنی نتیجه در = 2 و ک= 8، برای متغیر ? (تعداد نمونه). درست: یک تصویر گرافیکی از مراکز در یکی از تکرارها برای ?= 2 X 105. نقاط سبز مراکز الگوریتم ما و نقاط قرمز مراکز خوشه بندی LSH هستند. |
FriendlyCore همچنین در مجموعه داده های بزرگ عملکرد خوبی دارد، حتی بدون جداسازی واضح در خوشه ها. ما از مجموعه داده حسگرهای گاز Fonollosa و Huerta استفاده کردیم که شامل 8M ردیف است که از یک نقطه 16 بعدی تشکیل شده است که توسط اندازه گیری های 16 حسگر در یک نقطه زمانی مشخص تعریف شده است. ما الگوریتم های خوشه بندی را برای تغییر مقایسه کردیم ک. FriendlyCore به جز برای ک= 5 که در آن به دلیل ناپایداری الگوریتم غیر خصوصی استفاده شده توسط روش ما شکست می خورد (دو راه حل مختلف برای ک= 5 با هزینه مشابه که باعث می شود رویکرد ما شکست بخورد زیرا ما یک مجموعه تاپل نزدیک به یکدیگر را دریافت نمی کنیم).
ک-به معنی نتایج در اندازه گیری سنسورهای گاز در طول زمان، متفاوت است ک. |
نتیجه
FriendlyCore یک چارچوب کلی برای فیلتر کردن دادههای متریک قبل از تجمیع خصوصی آنها است. دادههای فیلتر شده پایدار هستند و تجمع را کمتر حساس میکند و ما را قادر میسازد تا دقت آن را با DP افزایش دهیم. الگوریتمهای ما از الگوریتمهای خصوصی که برای میانگینگیری و خوشهبندی طراحی شدهاند بهتر عمل میکنند، و ما معتقدیم که این تکنیک میتواند برای کارهای تجمیع اضافی مفید باشد. نتایج اولیه نشان میدهد که میتواند به طور موثری از دست دادن ابزار را در هنگام استقرار تجمعات DP کاهش دهد. برای کسب اطلاعات بیشتر و مشاهده اینکه چگونه آن را برای تخمین ماتریس کوواریانس یک توزیع گاوسی اعمال می کنیم، مقاله ما را ببینید.
سپاسگزاریها
رهبری این اثر را الیاد تسفادیا با همکاری ادیت کوهن، هایم کاپلان، یشای منصور، اوری استمر، آوینتان حسیدیم و یوسی ماتیاس بر عهده داشت.