یک چارچوب جدید تجمیع خصوصی متفاوت – وبلاگ هوش مصنوعی گوگل

الگوریتم‌های یادگیری ماشین حریم خصوصی افتراقی (DP) از داده‌های کاربر با محدود کردن تأثیر هر نقطه داده بر خروجی جمع‌آوری شده با تضمین ریاضی محافظت می‌کنند. ضمانت به طور مستقیم به این معناست که تغییر سهم یک کاربر منفرد نباید توزیع خروجی الگوریتم DP را تغییر دهد.

با این حال، الگوریتم‌های DP نسبت به الگوریتم‌های غیرخصوصی خود دقت کمتری دارند، زیرا برآورده کردن DP یک بدترین حالت نیاز: برای “پنهان کردن” تغییرات در هر کدام باید نویز اضافه کرد پتانسیل نقطه ورودی، از جمله “نقاط بعید” که تأثیر قابل توجهی بر روی تجمع دارند. برای مثال، فرض کنید می‌خواهیم میانگین یک مجموعه داده را به طور خصوصی تخمین بزنیم، و می‌دانیم که یک کره با قطر، Λ، حاوی تمام نقاط داده ممکن است. حساسیت میانگین به یک نقطه منفرد با Λ محدود می شود، و بنابراین برای اطمینان از DP کافی است که نویز متناسب با Λ را به هر مختصات میانگین اضافه کنیم.

کره ای با قطر Λ حاوی تمام نقاط داده ممکن.

حال فرض کنید همه نقاط داده “دوستانه” هستند، به این معنی که آنها به هم نزدیک هستند، و هر یک حداکثر تا ? بر میانگین تاثیر می گذارد، که بسیار کوچکتر از Λ است. با این حال، روش سنتی برای اطمینان از DP مستلزم افزودن نویز متناسب با Λ برای محاسبه یک مجموعه داده همسایه است که حاوی یک نقطه “غیر دوستانه” اضافی است که بعید است نمونه برداری شود.

دو مجموعه داده مجاور که در یک عدد پرت متفاوت هستند. یک الگوریتم DP باید نویز متناسب با Λ را به هر مختصات اضافه کند تا این خروجی را پنهان کند.

در «FriendlyCore: Practical Differentially Private Aggregation» که در ICML 2022 ارائه شد، یک چارچوب کلی برای محاسبه انبوه‌های خصوصی متفاوت معرفی می‌کنیم. چارچوب FriendlyCore داده‌ها را پیش پردازش می‌کند، یک زیرمجموعه «دوستانه» (هسته) استخراج می‌کند و در نتیجه خطای تجمیع خصوصی را که با الگوریتم‌های DP سنتی مشاهده می‌شود کاهش می‌دهد. مرحله جمع‌آوری خصوصی نویز کمتری اضافه می‌کند زیرا نیازی نیست نکات غیردوستانه‌ای را که بر روی تجمع تأثیر منفی می‌گذارند در نظر بگیریم.

در مثال میانگین، ابتدا اعمال می کنیم FriendlyCore برای حذف نقاط پرت، و در مرحله تجمع، نویز را متناسب با ? (نه Λ) اضافه می کنیم. چالش این است که الگوریتم کلی ما (حذف بیرونی + تجمیع) به طور متفاوت خصوصی شود. این طرح حذف نقاط پرت ما را محدود می‌کند و الگوریتم را تثبیت می‌کند به طوری که دو ورودی مجاور که با یک نقطه تفاوت دارند (پرت یا نه) باید خروجی (دوستانه) با احتمالات مشابه تولید کنند.

چارچوب FriendlyCore

ما با رسمی کردن زمانی که یک مجموعه داده در نظر گرفته می شود شروع می کنیم دوستانه، که به نوع تجمع مورد نیاز بستگی دارد و باید مجموعه داده هایی را که حساسیت انباشته برای آنها کم است، جمع آوری کند. به عنوان مثال، اگر مجموع میانگین باشد، اصطلاح دوستانه باید مجموعه داده هایی را با قطر کوچک ضبط کند.

برای انتزاع کردن کاربرد خاص، دوستی را با استفاده از یک گزاره تعریف می کنیم که در نقاط ? و ? مثبت است اگر “نزدیک” به یکدیگر باشند. به عنوان مثال، در برنامه میانگین گیری اگر فاصله بین آنها کمتر از ? باشد، ? و ? نزدیک هستند. اگر هر جفت نقطه ? و ? هر دو به نقطه سوم ? نزدیک باشند (نه لزوماً در داده ها) می گوییم که یک مجموعه داده دوستانه است (برای این گزاره).

هنگامی که ? را رفع کردیم و تعریف کردیم که یک مجموعه داده دوستانه است، دو کار باقی می ماند. اولین، ما الگوریتم FriendlyCore را می سازیم که یک زیرمجموعه دوستانه بزرگ (هسته) ورودی را به طور پایدار استخراج می کند. FriendlyCore فیلتری است که دو الزام را برآورده می کند: (1) باید موارد پرت را حذف کند تا فقط عناصری را که به بسیاری دیگر نزدیک هستند در هسته نگه دارد و (2) برای مجموعه داده های مجاور که با یک عنصر متفاوت هستند، ?، فیلتر هر عنصر را خروجی می کند. به جز ? با احتمال تقریباً یکسان. علاوه بر این، اتحاد هسته های استخراج شده از این مجموعه داده های همسایه دوستانه است.

ایده زیربنایی FriendlyCore ساده است: احتمال اینکه یک نقطه، ?، به هسته اضافه کنیم، تابعی یکنواخت و پایدار از تعداد عناصر نزدیک به ? است. به طور خاص، اگر ? به تمام نقاط دیگر نزدیک باشد، به عنوان نقطه پرت در نظر گرفته نمی شود و با احتمال 1 می توان آن را در هسته نگه داشت.

دوم، ما توسعه می دهیم DP دوستانه الگوریتمی که مفهوم ضعیف تری از حریم خصوصی را با اضافه کردن نویز کمتر به کل ارضا می کند. این بدان معناست که نتایج تجمیع تضمین می‌شود که فقط برای مجموعه‌های داده همسایه ? و ? مشابه باشند، به طوری که اتحاد ? و ?’ باشد. دوستانه.

قضیه اصلی ما بیان می‌کند که اگر یک الگوریتم جمع‌آوری DP دوستانه را به هسته تولید شده توسط یک فیلتر با الزامات ذکر شده در بالا اعمال کنیم، آنگاه این ترکیب به معنای معمولی متفاوت است.

خوشه بندی و برنامه های کاربردی دیگر

دیگر کاربردهای روش تجمیع ما، خوشه‌بندی و یادگیری ماتریس کوواریانس یک توزیع گاوسی است. استفاده از FriendlyCore را برای توسعه یک الگوریتم خوشه‌بندی k-means خصوصی متفاوت در نظر بگیرید. با توجه به یک پایگاه داده از نقاط، آن را به زیر مجموعه های تصادفی کوچکتر با اندازه مساوی تقسیم می کنیم و خوب اجرا می کنیم. غیر-خصوصی ک-به معنای الگوریتم خوشه بندی در هر مجموعه کوچک است. اگر مجموعه داده اصلی شامل ک خوشه های بزرگ پس از آن هر زیر مجموعه کوچکتر شامل کسر قابل توجهی از هر یک از آنها خواهد بود ک خوشه ها نتیجه می شود که تاپل ها (مجموعه های مرتب شده) از کمراکزی که از الگوریتم غیر خصوصی برای هر زیر مجموعه کوچک بدست می آوریم مشابه هستند. انتظار می رود این مجموعه داده از تاپل ها دارای یک هسته بزرگ دوستانه باشد (برای تعریف مناسب نزدیکی).

ما از فریمورک خود برای جمع‌آوری تاپل‌های حاصل استفاده می‌کنیم ک-مراکز (ک-جلوها). ما دو مورد را تعریف می کنیم کاگر یک تطابق بین آنها وجود داشته باشد به طوری که یک مرکز به طور قابل توجهی به جفت خود نزدیکتر از هر مرکز دیگری باشد، باید نزدیک باشند.

در این تصویر، هر جفت تاپل قرمز، آبی و سبز نزدیک به هم هستند، اما هیچ کدام به تاپل صورتی نزدیک نیستند. بنابراین تاپل صورتی توسط فیلتر ما حذف می شود و در هسته نیست.

سپس هسته را با طرح نمونه برداری عمومی خود استخراج می کنیم و با استفاده از مراحل زیر آن را تجمیع می کنیم:

  1. تصادفی انتخاب کنید ک-تبلی ? از هسته.
  2. داده ها را با قرار دادن هر نقطه در یک سطل بر اساس نزدیکترین مرکز آن در ? تقسیم بندی کنید.
  3. امتیازهای هر سطل را بطور خصوصی میانگین کنید تا فینال خود را بدست آورید ک-مراکز

نتایج تجربی

در زیر نتایج تجربی الگوریتم های ما بر اساس FriendlyCore. ما آنها را در مدل حریم خصوصی دیفرانسیل صفر متمرکز (zCDP) پیاده‌سازی کردیم، که دقت بهتری در تنظیمات ما می‌دهد (با ضمانت‌های حفظ حریم خصوصی مشابه با شناخته‌شده‌تر (?، ?)-DP).

میانگین گیری

ما میانگین تخمین 800 نمونه را از یک گوسی کروی با ناشناخته منظور داشتن. ما آن را با الگوریتم مقایسه کردیم CoinPress. برخلاف FriendlyCore، CoinPress به یک کران بالای ? در هنجار میانگین نیاز دارد. شکل های زیر تاثیر روی دقت را هنگام افزایش ? یا بعد ? نشان می دهد. الگوریتم میانگین‌گیری ما روی مقادیر بزرگ این پارامترها بهتر عمل می‌کند زیرا مستقل از ? و ? است.

ترک کرد: میانگین در = 1000، متغیر ?. درست: میانگین گیری با ?= √?، متغیر ?.

خوشه بندی

ما عملکرد الگوریتم خوشه‌بندی خصوصی خود را آزمایش کردیم ک-به معنای. ما آن را با الگوریتم چانگ و کامات مقایسه کردیم که مبتنی بر هش‌سازی حساس به مکان بازگشتی (LSH-clustering) است. برای هر آزمایش، 30 تکرار انجام دادیم و میانه ها را به همراه چندک های 0.1 و 0.9 ارائه کردیم. در هر تکرار، با از دست دادن k-means++ تلفات را عادی می کنیم (که عدد کوچکتر بهتر است).

شکل سمت چپ زیر را مقایسه می کند ک-میانگین بر روی یک مخلوط یکنواخت از هشت گاوسی جدا شده در دو بعدی نتایج حاصل می شود. برای مقادیر کوچک ? (تعداد نمونه از مخلوط)، FriendlyCore اغلب از کار می افتد و نتایج نادرست به همراه دارد. با این حال، افزایش ? احتمال موفقیت الگوریتم ما را افزایش می دهد (زیرا تاپل های تولید شده به یکدیگر نزدیکتر می شوند) و نتایج بسیار دقیقی را به همراه دارد، در حالی که خوشه بندی LSH عقب است.

ترک کرد: ک-به معنی نتیجه در = 2 و ک= 8، برای متغیر ? (تعداد نمونه). درست: یک تصویر گرافیکی از مراکز در یکی از تکرارها برای ?= 2 X 105. نقاط سبز مراکز الگوریتم ما و نقاط قرمز مراکز خوشه بندی LSH هستند.

FriendlyCore همچنین در مجموعه داده های بزرگ عملکرد خوبی دارد، حتی بدون جداسازی واضح در خوشه ها. ما از مجموعه داده حسگرهای گاز Fonollosa و Huerta استفاده کردیم که شامل 8M ردیف است که از یک نقطه 16 بعدی تشکیل شده است که توسط اندازه گیری های 16 حسگر در یک نقطه زمانی مشخص تعریف شده است. ما الگوریتم های خوشه بندی را برای تغییر مقایسه کردیم ک. FriendlyCore به جز برای ک= 5 که در آن به دلیل ناپایداری الگوریتم غیر خصوصی استفاده شده توسط روش ما شکست می خورد (دو راه حل مختلف برای ک= 5 با هزینه مشابه که باعث می شود رویکرد ما شکست بخورد زیرا ما یک مجموعه تاپل نزدیک به یکدیگر را دریافت نمی کنیم).

ک-به معنی نتایج در اندازه گیری سنسورهای گاز در طول زمان، متفاوت است ک.

نتیجه

FriendlyCore یک چارچوب کلی برای فیلتر کردن داده‌های متریک قبل از تجمیع خصوصی آن‌ها است. داده‌های فیلتر شده پایدار هستند و تجمع را کمتر حساس می‌کند و ما را قادر می‌سازد تا دقت آن را با DP افزایش دهیم. الگوریتم‌های ما از الگوریتم‌های خصوصی که برای میانگین‌گیری و خوشه‌بندی طراحی شده‌اند بهتر عمل می‌کنند، و ما معتقدیم که این تکنیک می‌تواند برای کارهای تجمیع اضافی مفید باشد. نتایج اولیه نشان می‌دهد که می‌تواند به طور موثری از دست دادن ابزار را در هنگام استقرار تجمعات DP کاهش دهد. برای کسب اطلاعات بیشتر و مشاهده اینکه چگونه آن را برای تخمین ماتریس کوواریانس یک توزیع گاوسی اعمال می کنیم، مقاله ما را ببینید.

سپاسگزاریها

رهبری این اثر را الیاد تسفادیا با همکاری ادیت کوهن، هایم کاپلان، یشای منصور، اوری استمر، آوینتان حسیدیم و یوسی ماتیاس بر عهده داشت.

سئو PBN | خبر های جدید سئو و هک و سرور