یک کتابخانه منعطف برای بررسی حریم خصوصی متفاوت – وبلاگ تحقیقاتی گوگل

حریم خصوصی دیفرانسیل (DP) یک ویژگی مکانیزم های تصادفی است که تأثیر اطلاعات هر کاربر را هنگام پردازش و تجزیه و تحلیل داده ها محدود می کند. DP یک راه حل قوی برای رسیدگی به نگرانی های فزاینده در مورد حفاظت از داده ها ارائه می دهد و فناوری ها را در صنایع و برنامه های کاربردی دولتی (مثلاً سرشماری ایالات متحده) بدون به خطر انداختن هویت کاربر فعال می کند. همانطور که پذیرش آن افزایش می یابد، شناسایی خطرات بالقوه ایجاد مکانیسم هایی با پیاده سازی های معیوب مهم است. محققان اخیراً خطاهایی در اثبات ریاضی مکانیسم های خصوصی و پیاده سازی آنها پیدا کرده اند. به عنوان مثال، محققان شش تغییر روش بردار پراکنده (SVT) را مقایسه کردند و دریافتند که تنها دو مورد از این شش روش در واقع ضمانت حفظ حریم خصوصی را برآورده می‌کنند. حتی زمانی که اثبات های ریاضی درست باشند، کد پیاده سازی مکانیسم در برابر خطای انسانی آسیب پذیر است.

با این حال، حسابرسی DP عملی و کارآمد در درجه اول به دلیل تصادفی بودن ذاتی مکانیسم ها و ماهیت احتمالی تضمین های آزمایش شده چالش برانگیز است. علاوه بر این، طیفی از انواع ضمانت وجود دارد، (به عنوان مثال، DP خالص، DP تقریبی، Rényi DP، و DP متمرکز)، و این تنوع به پیچیدگی فرمول‌بندی مشکل حسابرسی کمک می‌کند. علاوه بر این، اشکال‌زدایی برهان‌های ریاضی و مبانی کد با توجه به حجم مکانیسم‌های پیشنهادی، یک کار غیرقابل حل است. در حالی که به این تکنیک‌های تست تحت مفروضات خاصی از مکانیسم‌ها وجود دارند، تلاش‌های کمی برای توسعه ابزاری توسعه‌پذیر برای آزمایش مکانیسم‌های DP انجام شده است.

برای این منظور، در “DP-Auditorium: A Large Scale Library for Auditing Differential Privacy”، ما یک کتابخانه منبع باز برای ممیزی ضمانت های DP با دسترسی جعبه سیاه به مکانیزم (یعنی بدون هیچ گونه آگاهی از ویژگی های داخلی مکانیزم) معرفی می کنیم. ). DP-Auditorium در پایتون پیاده‌سازی می‌شود و یک رابط انعطاف‌پذیر ارائه می‌کند که به مشارکت‌ها اجازه می‌دهد تا به طور مداوم قابلیت‌های تست آن را بهبود بخشند. ما همچنین الگوریتم‌های آزمایش جدیدی را معرفی می‌کنیم که بهینه‌سازی واگرایی را در فضاهای تابع برای Rényi DP، DP خالص و DP تقریبی انجام می‌دهند. ما نشان می‌دهیم که DP-Auditorium می‌تواند به‌طور مؤثر نقض‌های ضمانت‌نامه DP را شناسایی کند و پیشنهاد می‌کند که کدام آزمایش برای شناسایی اشکالات خاص تحت تضمین‌های مختلف حریم خصوصی مناسب‌تر است.

ضمانت DP

خروجی مکانیزم DP نمونه ای است که از توزیع احتمال (م (D)) که یک ویژگی ریاضی را برآورده می کند که از حریم خصوصی داده های کاربر اطمینان می دهد. بنابراین، ضمانت DP با ویژگی‌های بین جفت‌های توزیع احتمال مرتبط است. یک مکانیسم به طور متفاوت خصوصی است اگر توزیع های احتمال توسط م یک مجموعه داده است D و یک مجموعه داده مجاور D'، که تنها با یک رکورد تفاوت دارند، هستند غیر قابل تشخیص تحت یک متریک واگرایی معین

به عنوان مثال، تعریف تقریبی DP کلاسیک بیان می کند که یک مکانیسم تقریباً DP با پارامترهای (ه، د) اگر ترتیب واگرایی چوب هاکی باشد هه، بین م(د) و م(D') حداکثر است د. DP خالص یک نمونه خاص از DP تقریبی است که در آن d = 0. در نهایت، یک مکانیسم Rényi DP با پارامترهای (🝛، ه) اگر رنی واگرایی نظم 🝛، حداکثر است ه (جایی که ه یک مقدار مثبت کوچک است). در این سه تعریف، ه قابل تعویض نیست، اما به طور شهودی همان مفهوم را منتقل می کند. مقادیر بزرگتر از ه حاکی از واگرایی های بزرگتر بین دو توزیع یا حفظ حریم خصوصی کمتر است، زیرا تشخیص این دو توزیع آسان تر است.

DP-Auditorium

DP-Auditorium از دو جزء اصلی تشکیل شده است: آزمایشگرهای دارایی و یابهای داده. آزمایش‌کنندگان دارایی نمونه‌هایی را از یک مکانیسم ارزیابی شده بر روی مجموعه داده‌های خاص به عنوان ورودی می‌گیرند و هدفشان شناسایی نقض‌های تضمین حریم خصوصی در مجموعه داده‌های ارائه‌شده است. یابهای مجموعه داده مجموعه داده هایی را پیشنهاد می کنند که ضمانت حفظ حریم خصوصی ممکن است شکست بخورد. با ترکیب هر دو مؤلفه، DP-Auditorium (1) آزمایش خودکار مکانیسم‌های متنوع و تعاریف حریم خصوصی و (2) تشخیص اشکالات در مکانیسم‌های حفظ حریم خصوصی را ممکن می‌سازد. ما مکانیسم‌های خصوصی و غیرخصوصی مختلفی را پیاده‌سازی می‌کنیم، از جمله مکانیسم‌های ساده‌ای که میانگین رکوردها را محاسبه می‌کنند و مکانیسم‌های پیچیده‌تر، مانند انواع مختلف مکانیسم SVT و مکانیسم نزول گرادیان.

آزمایش کنندگان املاک تعیین اینکه آیا شواهدی برای رد این فرضیه وجود دارد که یک واگرایی معین بین دو توزیع احتمال وجود دارد، پ و س، توسط یک بودجه از پیش تعیین شده تعیین شده توسط ضمانت DP در حال آزمایش محدود می شود. آنها یک کران پایین را از نمونه هایی از محاسبه می کنند پ و س، در صورتی که مقدار کران پایینی از واگرایی مورد انتظار فراتر رود، دارایی را رد می کند. اگر نتیجه واقعاً محدود باشد، هیچ تضمینی ارائه نمی شود. برای آزمایش طیف وسیعی از تضمین‌های حریم خصوصی، DP-Auditorium سه آزمایش‌کننده جدید را معرفی می‌کند: (1) HockeyStickPropertyTester، (2) RényiPropertyTester و (3) MMDPropertyTester. برخلاف روش‌های دیگر، این آزمایش‌کننده‌ها به تقریب هیستوگرام صریح توزیع‌های آزمایش‌شده وابسته نیستند. آن‌ها بر نمایش‌های متغیر واگرایی چوب هاکی، واگرایی Rényi و حداکثر اختلاف میانگین (MMD) تکیه می‌کنند که تخمین واگرایی‌ها را از طریق بهینه‌سازی در فضاهای تابعی امکان‌پذیر می‌سازد. به عنوان پایه، ما HistogramPropertyTester، یک تستر تقریبی DP که معمولا استفاده می شود را پیاده سازی می کنیم. در حالی که سه آزمایش کننده ما از رویکرد مشابهی پیروی می کنند، برای اختصار، ما در این پست بر HockeyStickPropertyTester تمرکز می کنیم.

با توجه به دو مجموعه داده مجاور، D و D'، HockeyStickPropertyTester یک کران پایین را پیدا می کند،^د برای واگرایی هاکی-چوب بین م(د) و م(D') که با احتمال زیاد برگزار می شود. واگرایی چوب هاکی این دو توزیع را تحمیل می کند م(د) و م(D') تحت ضمانت تقریبی DP نزدیک هستند. بنابراین، اگر یک ضمانت حفظ حریم خصوصی ادعا کند که اختلاف هاکی با چوب حداکثر وجود دارد د، و^د > د، پس با احتمال زیاد واگرایی بیشتر از چیزی است که در مورد آن وعده داده شده است D و D' و مکانیسم نمی تواند تضمین DP تقریبی داده شده را برآورده کند. کران پایین^د به عنوان یک همتای تجربی و قابل حمل از یک فرمول متغیر از واگرایی هاکی-چوب محاسبه شده است (برای جزئیات بیشتر به مقاله مراجعه کنید). دقت از^د با تعداد نمونه های استخراج شده از مکانیسم افزایش می یابد، اما با ساده شدن فرمول تغییرات کاهش می یابد. ما این عوامل را متعادل می کنیم تا اطمینان حاصل شود^د هم دقیق است و هم محاسبه آن آسان است.

یابهای مجموعه داده از بهینه سازی جعبه سیاه برای یافتن مجموعه داده ها استفاده کنید D و D' که به حداکثر رساندن^د، یک کران پایین در مقدار واگرایی د. توجه داشته باشید که تکنیک‌های بهینه‌سازی جعبه سیاه به‌طور خاص برای تنظیماتی طراحی شده‌اند که در آن استخراج گرادیان برای یک تابع هدف ممکن است غیرعملی یا حتی غیرممکن باشد. این تکنیک‌های بهینه‌سازی بین فازهای اکتشاف و بهره‌برداری برای تخمین شکل تابع هدف و پیش‌بینی مناطقی که هدف می‌تواند مقادیر بهینه داشته باشد در نوسان است. در مقابل، یک الگوریتم کاوش کامل، مانند روش جستجوی شبکه ای، در فضای کامل مجموعه داده های همسایه جستجو می کند. D و D'. DP-Auditorium یابهای داده مختلف را از طریق کتابخانه بهینه سازی جعبه سیاه منبع باز Vizier پیاده سازی می کند.

اجرای اجزای موجود بر روی یک مکانیسم جدید فقط نیازمند تعریف مکانیزم به عنوان یک تابع پایتون است که آرایه ای از داده ها را می گیرد. D و تعداد نمونه دلخواه n با مکانیزم محاسبه شده روی خروجی قرار گیرد D. علاوه بر این، ما بسته‌بندی‌های انعطاف‌پذیری را برای آزمایش‌کنندگان و یاب‌کننده‌های داده ارائه می‌کنیم که به پزشکان اجازه می‌دهد الگوریتم‌های جستجوی آزمایش و داده‌های خود را پیاده‌سازی کنند.

نتایج کلیدی

ما اثربخشی DP-Auditorium را بر روی پنج مکانیسم خصوصی و نه مکانیسم غیرخصوصی با فضاهای خروجی متنوع ارزیابی می‌کنیم. برای هر آزمایشگر ویژگی، آزمایش را ده بار روی مجموعه داده های ثابت با استفاده از مقادیر مختلف تکرار می کنیم ه، و تعداد دفعاتی را که هر آزمایش کننده باگ های حریم خصوصی را شناسایی می کند، گزارش دهید. در حالی که هیچ آزمایش‌کننده‌ای به طور مداوم از سایرین بهتر عمل نمی‌کند، ما اشکالاتی را شناسایی می‌کنیم که با تکنیک‌های قبلی (HistogramPropertyTester) از دست می‌رفتند. توجه داشته باشید که HistogramPropertyTester برای مکانیسم های SVT قابل اجرا نیست.

تعداد دفعاتی که هر آزمایش‌کننده دارایی نقض حریم خصوصی مکانیسم‌های غیرخصوصی آزمایش‌شده را پیدا می‌کند. مکانیسم های NonDPLaplaceMean و NonDPGaussianMean پیاده سازی های معیوب مکانیسم های لاپلاس و گاوسی برای محاسبه میانگین هستند.

ما همچنین پیاده‌سازی یک الگوریتم نزولی گرادیان DP (DP-GD) را در TensorFlow تحلیل می‌کنیم که گرادیان‌های تابع ضرر را روی داده‌های خصوصی محاسبه می‌کند. برای حفظ حریم خصوصی، DP-GD از یک مکانیسم برش برای محدود کردن l2-norm گرادیان ها با یک مقدار استفاده می کند. جیو به دنبال آن نویز گاوسی اضافه شد. این پیاده سازی به اشتباه فرض می کند که نویز اضافه شده دارای مقیاس است جی، در حالی که در واقعیت، مقیاس است sG، جایی که س یک اسکالر مثبت است این اختلاف منجر به ضمانت DP تقریبی می شود که فقط برای مقادیر وجود دارد س بزرگتر یا مساوی 1.

ما اثربخشی آزمایش‌کننده‌های دارایی را در شناسایی این اشکال ارزیابی می‌کنیم و نشان می‌دهیم که HockeyStickPropertyTester و RényiPropertyTester عملکرد برتری در شناسایی نقض حریم خصوصی دارند و از MMDPropertyTester و HistogramPropertyTester بهتر عمل می‌کنند. قابل‌توجه است که این آزمایش‌کننده‌ها باگ را حتی برای مقادیر از شناسایی می‌کنند س به اندازه 0.6 شایان ذکر است که س = 0.5 مربوط به یک خطای رایج در ادبیات است که شامل از دست دادن ضریب دو هنگام محاسبه بودجه حریم خصوصی است. ه. DP-Auditorium با موفقیت این اشکال را مطابق شکل زیر دریافت می کند. برای جزئیات بیشتر بخش 5.6 را اینجا ببینید.

واگرایی تخمینی و آستانه آزمون برای مقادیر مختلف س هنگام آزمایش DP-GD با HistogramPropertyTester (ترک کرد) و HockeyStickPropertyTester (درست).

واگرایی تخمینی و آستانه آزمون برای مقادیر مختلف س هنگام آزمایش DP-GD با RényiPropertyTester (ترک کرد) و MMDPropertyTester (درست)

برای آزمایش یاب‌های داده، ما تعداد مجموعه‌های داده بررسی شده را قبل از یافتن نقض حریم خصوصی محاسبه می‌کنیم. به طور متوسط، اکثر اشکالات در کمتر از 10 تماس با جستجوگرهای داده کشف می شوند. روش‌های تصادفی‌سازی و اکتشاف/بهره‌برداری در یافتن مجموعه‌های داده کارآمدتر از جستجوی شبکه‌ای هستند. برای جزئیات بیشتر، مقاله را ببینید.

نتیجه

DP یکی از قدرتمندترین چارچوب ها برای حفاظت از داده ها است. با این حال، اجرای صحیح مکانیسم‌های DP می‌تواند چالش‌برانگیز و مستعد خطاهایی باشد که به راحتی با استفاده از روش‌های تست واحد سنتی قابل شناسایی نیستند. یک چارچوب آزمون یکپارچه می‌تواند به حسابرسان، تنظیم‌کننده‌ها و دانشگاهیان کمک کند تا مطمئن شوند که مکانیزم‌های خصوصی واقعاً خصوصی هستند.

DP-Auditorium یک رویکرد جدید برای آزمایش DP از طریق بهینه سازی واگرایی در فضاهای تابع است. نتایج ما نشان می‌دهد که این نوع تخمین مبتنی بر تابع به طور مداوم از آزمایش‌کنندگان دسترسی جعبه سیاه قبلی بهتر عمل می‌کند. در نهایت، ما نشان می‌دهیم که این برآوردگرهای مبتنی بر تابع، امکان کشف بهتر اشکالات حریم خصوصی را در مقایسه با تخمین هیستوگرام فراهم می‌کنند. با منبع باز DP-Auditorium، هدف ما ایجاد استانداردی برای آزمایش سرتاسر الگوریتم‌های خصوصی متفاوت جدید است.

سپاسگزاریها

کاری که در اینجا توضیح داده شد به طور مشترک با آندرس مونوز مدینه، ویلیام کنگ و عمر سید انجام شد. ما از کریس دیباک و وادیم دوروشنکو برای پشتیبانی مهندسی مفید و پیشنهادات رابط برای کتابخانه ما تشکر می کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور