حریم خصوصی دیفرانسیل (DP) یک ویژگی مکانیزم های تصادفی است که تأثیر اطلاعات هر کاربر را هنگام پردازش و تجزیه و تحلیل داده ها محدود می کند. DP یک راه حل قوی برای رسیدگی به نگرانی های فزاینده در مورد حفاظت از داده ها ارائه می دهد و فناوری ها را در صنایع و برنامه های کاربردی دولتی (مثلاً سرشماری ایالات متحده) بدون به خطر انداختن هویت کاربر فعال می کند. همانطور که پذیرش آن افزایش می یابد، شناسایی خطرات بالقوه ایجاد مکانیسم هایی با پیاده سازی های معیوب مهم است. محققان اخیراً خطاهایی در اثبات ریاضی مکانیسم های خصوصی و پیاده سازی آنها پیدا کرده اند. به عنوان مثال، محققان شش تغییر روش بردار پراکنده (SVT) را مقایسه کردند و دریافتند که تنها دو مورد از این شش روش در واقع ضمانت حفظ حریم خصوصی را برآورده میکنند. حتی زمانی که اثبات های ریاضی درست باشند، کد پیاده سازی مکانیسم در برابر خطای انسانی آسیب پذیر است.
با این حال، حسابرسی DP عملی و کارآمد در درجه اول به دلیل تصادفی بودن ذاتی مکانیسم ها و ماهیت احتمالی تضمین های آزمایش شده چالش برانگیز است. علاوه بر این، طیفی از انواع ضمانت وجود دارد، (به عنوان مثال، DP خالص، DP تقریبی، Rényi DP، و DP متمرکز)، و این تنوع به پیچیدگی فرمولبندی مشکل حسابرسی کمک میکند. علاوه بر این، اشکالزدایی برهانهای ریاضی و مبانی کد با توجه به حجم مکانیسمهای پیشنهادی، یک کار غیرقابل حل است. در حالی که به این تکنیکهای تست تحت مفروضات خاصی از مکانیسمها وجود دارند، تلاشهای کمی برای توسعه ابزاری توسعهپذیر برای آزمایش مکانیسمهای DP انجام شده است.
برای این منظور، در “DP-Auditorium: A Large Scale Library for Auditing Differential Privacy”، ما یک کتابخانه منبع باز برای ممیزی ضمانت های DP با دسترسی جعبه سیاه به مکانیزم (یعنی بدون هیچ گونه آگاهی از ویژگی های داخلی مکانیزم) معرفی می کنیم. ). DP-Auditorium در پایتون پیادهسازی میشود و یک رابط انعطافپذیر ارائه میکند که به مشارکتها اجازه میدهد تا به طور مداوم قابلیتهای تست آن را بهبود بخشند. ما همچنین الگوریتمهای آزمایش جدیدی را معرفی میکنیم که بهینهسازی واگرایی را در فضاهای تابع برای Rényi DP، DP خالص و DP تقریبی انجام میدهند. ما نشان میدهیم که DP-Auditorium میتواند بهطور مؤثر نقضهای ضمانتنامه DP را شناسایی کند و پیشنهاد میکند که کدام آزمایش برای شناسایی اشکالات خاص تحت تضمینهای مختلف حریم خصوصی مناسبتر است.
ضمانت DP
خروجی مکانیزم DP نمونه ای است که از توزیع احتمال (م (D)) که یک ویژگی ریاضی را برآورده می کند که از حریم خصوصی داده های کاربر اطمینان می دهد. بنابراین، ضمانت DP با ویژگیهای بین جفتهای توزیع احتمال مرتبط است. یک مکانیسم به طور متفاوت خصوصی است اگر توزیع های احتمال توسط م یک مجموعه داده است D و یک مجموعه داده مجاور D'، که تنها با یک رکورد تفاوت دارند، هستند غیر قابل تشخیص تحت یک متریک واگرایی معین
به عنوان مثال، تعریف تقریبی DP کلاسیک بیان می کند که یک مکانیسم تقریباً DP با پارامترهای (ه، د) اگر ترتیب واگرایی چوب هاکی باشد هه، بین م(د) و م(D') حداکثر است د. DP خالص یک نمونه خاص از DP تقریبی است که در آن d = 0. در نهایت، یک مکانیسم Rényi DP با پارامترهای (🝛، ه) اگر رنی واگرایی نظم 🝛، حداکثر است ه (جایی که ه یک مقدار مثبت کوچک است). در این سه تعریف، ه قابل تعویض نیست، اما به طور شهودی همان مفهوم را منتقل می کند. مقادیر بزرگتر از ه حاکی از واگرایی های بزرگتر بین دو توزیع یا حفظ حریم خصوصی کمتر است، زیرا تشخیص این دو توزیع آسان تر است.
DP-Auditorium
DP-Auditorium از دو جزء اصلی تشکیل شده است: آزمایشگرهای دارایی و یابهای داده. آزمایشکنندگان دارایی نمونههایی را از یک مکانیسم ارزیابی شده بر روی مجموعه دادههای خاص به عنوان ورودی میگیرند و هدفشان شناسایی نقضهای تضمین حریم خصوصی در مجموعه دادههای ارائهشده است. یابهای مجموعه داده مجموعه داده هایی را پیشنهاد می کنند که ضمانت حفظ حریم خصوصی ممکن است شکست بخورد. با ترکیب هر دو مؤلفه، DP-Auditorium (1) آزمایش خودکار مکانیسمهای متنوع و تعاریف حریم خصوصی و (2) تشخیص اشکالات در مکانیسمهای حفظ حریم خصوصی را ممکن میسازد. ما مکانیسمهای خصوصی و غیرخصوصی مختلفی را پیادهسازی میکنیم، از جمله مکانیسمهای سادهای که میانگین رکوردها را محاسبه میکنند و مکانیسمهای پیچیدهتر، مانند انواع مختلف مکانیسم SVT و مکانیسم نزول گرادیان.
آزمایش کنندگان املاک تعیین اینکه آیا شواهدی برای رد این فرضیه وجود دارد که یک واگرایی معین بین دو توزیع احتمال وجود دارد، پ و س، توسط یک بودجه از پیش تعیین شده تعیین شده توسط ضمانت DP در حال آزمایش محدود می شود. آنها یک کران پایین را از نمونه هایی از محاسبه می کنند پ و س، در صورتی که مقدار کران پایینی از واگرایی مورد انتظار فراتر رود، دارایی را رد می کند. اگر نتیجه واقعاً محدود باشد، هیچ تضمینی ارائه نمی شود. برای آزمایش طیف وسیعی از تضمینهای حریم خصوصی، DP-Auditorium سه آزمایشکننده جدید را معرفی میکند: (1) HockeyStickPropertyTester، (2) RényiPropertyTester و (3) MMDPropertyTester. برخلاف روشهای دیگر، این آزمایشکنندهها به تقریب هیستوگرام صریح توزیعهای آزمایششده وابسته نیستند. آنها بر نمایشهای متغیر واگرایی چوب هاکی، واگرایی Rényi و حداکثر اختلاف میانگین (MMD) تکیه میکنند که تخمین واگراییها را از طریق بهینهسازی در فضاهای تابعی امکانپذیر میسازد. به عنوان پایه، ما HistogramPropertyTester، یک تستر تقریبی DP که معمولا استفاده می شود را پیاده سازی می کنیم. در حالی که سه آزمایش کننده ما از رویکرد مشابهی پیروی می کنند، برای اختصار، ما در این پست بر HockeyStickPropertyTester تمرکز می کنیم.
با توجه به دو مجموعه داده مجاور، D و D'، HockeyStickPropertyTester یک کران پایین را پیدا می کند،^د برای واگرایی هاکی-چوب بین م(د) و م(D') که با احتمال زیاد برگزار می شود. واگرایی چوب هاکی این دو توزیع را تحمیل می کند م(د) و م(D') تحت ضمانت تقریبی DP نزدیک هستند. بنابراین، اگر یک ضمانت حفظ حریم خصوصی ادعا کند که اختلاف هاکی با چوب حداکثر وجود دارد د، و^د > د، پس با احتمال زیاد واگرایی بیشتر از چیزی است که در مورد آن وعده داده شده است D و D' و مکانیسم نمی تواند تضمین DP تقریبی داده شده را برآورده کند. کران پایین^د به عنوان یک همتای تجربی و قابل حمل از یک فرمول متغیر از واگرایی هاکی-چوب محاسبه شده است (برای جزئیات بیشتر به مقاله مراجعه کنید). دقت از^د با تعداد نمونه های استخراج شده از مکانیسم افزایش می یابد، اما با ساده شدن فرمول تغییرات کاهش می یابد. ما این عوامل را متعادل می کنیم تا اطمینان حاصل شود^د هم دقیق است و هم محاسبه آن آسان است.
یابهای مجموعه داده از بهینه سازی جعبه سیاه برای یافتن مجموعه داده ها استفاده کنید D و D' که به حداکثر رساندن^د، یک کران پایین در مقدار واگرایی د. توجه داشته باشید که تکنیکهای بهینهسازی جعبه سیاه بهطور خاص برای تنظیماتی طراحی شدهاند که در آن استخراج گرادیان برای یک تابع هدف ممکن است غیرعملی یا حتی غیرممکن باشد. این تکنیکهای بهینهسازی بین فازهای اکتشاف و بهرهبرداری برای تخمین شکل تابع هدف و پیشبینی مناطقی که هدف میتواند مقادیر بهینه داشته باشد در نوسان است. در مقابل، یک الگوریتم کاوش کامل، مانند روش جستجوی شبکه ای، در فضای کامل مجموعه داده های همسایه جستجو می کند. D و D'. DP-Auditorium یابهای داده مختلف را از طریق کتابخانه بهینه سازی جعبه سیاه منبع باز Vizier پیاده سازی می کند.
اجرای اجزای موجود بر روی یک مکانیسم جدید فقط نیازمند تعریف مکانیزم به عنوان یک تابع پایتون است که آرایه ای از داده ها را می گیرد. D و تعداد نمونه دلخواه n با مکانیزم محاسبه شده روی خروجی قرار گیرد D. علاوه بر این، ما بستهبندیهای انعطافپذیری را برای آزمایشکنندگان و یابکنندههای داده ارائه میکنیم که به پزشکان اجازه میدهد الگوریتمهای جستجوی آزمایش و دادههای خود را پیادهسازی کنند.
نتایج کلیدی
ما اثربخشی DP-Auditorium را بر روی پنج مکانیسم خصوصی و نه مکانیسم غیرخصوصی با فضاهای خروجی متنوع ارزیابی میکنیم. برای هر آزمایشگر ویژگی، آزمایش را ده بار روی مجموعه داده های ثابت با استفاده از مقادیر مختلف تکرار می کنیم ه، و تعداد دفعاتی را که هر آزمایش کننده باگ های حریم خصوصی را شناسایی می کند، گزارش دهید. در حالی که هیچ آزمایشکنندهای به طور مداوم از سایرین بهتر عمل نمیکند، ما اشکالاتی را شناسایی میکنیم که با تکنیکهای قبلی (HistogramPropertyTester) از دست میرفتند. توجه داشته باشید که HistogramPropertyTester برای مکانیسم های SVT قابل اجرا نیست.
تعداد دفعاتی که هر آزمایشکننده دارایی نقض حریم خصوصی مکانیسمهای غیرخصوصی آزمایششده را پیدا میکند. مکانیسم های NonDPLaplaceMean و NonDPGaussianMean پیاده سازی های معیوب مکانیسم های لاپلاس و گاوسی برای محاسبه میانگین هستند. |
ما همچنین پیادهسازی یک الگوریتم نزولی گرادیان DP (DP-GD) را در TensorFlow تحلیل میکنیم که گرادیانهای تابع ضرر را روی دادههای خصوصی محاسبه میکند. برای حفظ حریم خصوصی، DP-GD از یک مکانیسم برش برای محدود کردن l2-norm گرادیان ها با یک مقدار استفاده می کند. جیو به دنبال آن نویز گاوسی اضافه شد. این پیاده سازی به اشتباه فرض می کند که نویز اضافه شده دارای مقیاس است جی، در حالی که در واقعیت، مقیاس است sG، جایی که س یک اسکالر مثبت است این اختلاف منجر به ضمانت DP تقریبی می شود که فقط برای مقادیر وجود دارد س بزرگتر یا مساوی 1.
ما اثربخشی آزمایشکنندههای دارایی را در شناسایی این اشکال ارزیابی میکنیم و نشان میدهیم که HockeyStickPropertyTester و RényiPropertyTester عملکرد برتری در شناسایی نقض حریم خصوصی دارند و از MMDPropertyTester و HistogramPropertyTester بهتر عمل میکنند. قابلتوجه است که این آزمایشکنندهها باگ را حتی برای مقادیر از شناسایی میکنند س به اندازه 0.6 شایان ذکر است که س = 0.5 مربوط به یک خطای رایج در ادبیات است که شامل از دست دادن ضریب دو هنگام محاسبه بودجه حریم خصوصی است. ه. DP-Auditorium با موفقیت این اشکال را مطابق شکل زیر دریافت می کند. برای جزئیات بیشتر بخش 5.6 را اینجا ببینید.
واگرایی تخمینی و آستانه آزمون برای مقادیر مختلف س هنگام آزمایش DP-GD با HistogramPropertyTester (ترک کرد) و HockeyStickPropertyTester (درست). |
واگرایی تخمینی و آستانه آزمون برای مقادیر مختلف س هنگام آزمایش DP-GD با RényiPropertyTester (ترک کرد) و MMDPropertyTester (درست) |
برای آزمایش یابهای داده، ما تعداد مجموعههای داده بررسی شده را قبل از یافتن نقض حریم خصوصی محاسبه میکنیم. به طور متوسط، اکثر اشکالات در کمتر از 10 تماس با جستجوگرهای داده کشف می شوند. روشهای تصادفیسازی و اکتشاف/بهرهبرداری در یافتن مجموعههای داده کارآمدتر از جستجوی شبکهای هستند. برای جزئیات بیشتر، مقاله را ببینید.
نتیجه
DP یکی از قدرتمندترین چارچوب ها برای حفاظت از داده ها است. با این حال، اجرای صحیح مکانیسمهای DP میتواند چالشبرانگیز و مستعد خطاهایی باشد که به راحتی با استفاده از روشهای تست واحد سنتی قابل شناسایی نیستند. یک چارچوب آزمون یکپارچه میتواند به حسابرسان، تنظیمکنندهها و دانشگاهیان کمک کند تا مطمئن شوند که مکانیزمهای خصوصی واقعاً خصوصی هستند.
DP-Auditorium یک رویکرد جدید برای آزمایش DP از طریق بهینه سازی واگرایی در فضاهای تابع است. نتایج ما نشان میدهد که این نوع تخمین مبتنی بر تابع به طور مداوم از آزمایشکنندگان دسترسی جعبه سیاه قبلی بهتر عمل میکند. در نهایت، ما نشان میدهیم که این برآوردگرهای مبتنی بر تابع، امکان کشف بهتر اشکالات حریم خصوصی را در مقایسه با تخمین هیستوگرام فراهم میکنند. با منبع باز DP-Auditorium، هدف ما ایجاد استانداردی برای آزمایش سرتاسر الگوریتمهای خصوصی متفاوت جدید است.
سپاسگزاریها
کاری که در اینجا توضیح داده شد به طور مشترک با آندرس مونوز مدینه، ویلیام کنگ و عمر سید انجام شد. ما از کریس دیباک و وادیم دوروشنکو برای پشتیبانی مهندسی مفید و پیشنهادات رابط برای کتابخانه ما تشکر می کنیم.