نقشه های حرارتی خصوصی متفاوت – وبلاگ هوش مصنوعی گوگل

اخیراً، حریم خصوصی دیفرانسیل (DP) به عنوان یک مفهوم ریاضی قوی از حریم خصوصی کاربر برای تجمیع داده ها و یادگیری ماشین (ML)، با استقرارهای عملی از جمله سرشماری 2022 ایالات متحده و در صنعت، پدیدار شده است. در چند سال گذشته، ما کتابخانه‌های منبع باز برای تجزیه و تحلیل حفظ حریم خصوصی و ML داریم و دائماً قابلیت‌های آنها را افزایش می‌دهیم. در همین حال، الگوریتم‌های جدیدی توسط جامعه پژوهشی برای چندین کار تحلیلی که شامل تجمیع خصوصی داده‌ها است، توسعه داده شده‌اند.

یکی از این روش های مهم تجمیع داده ها، نقشه حرارتی است. نقشه های حرارتی برای تجسم داده های جمع آوری شده در دو یا چند بعد محبوب هستند. آنها به طور گسترده در بسیاری از زمینه ها از جمله بینایی کامپیوتر، پردازش تصویر، تجزیه و تحلیل داده های مکانی، بیوانفورماتیک و غیره استفاده می شوند. حفاظت از حریم خصوصی داده های کاربر برای بسیاری از کاربردهای نقشه های حرارتی حیاتی است. به عنوان مثال، نقشه های حرارتی برای ریزداده های ژنی بر اساس داده های خصوصی افراد است. به طور مشابه، یک نقشه حرارتی از مکان های محبوب در یک منطقه جغرافیایی بر اساس بررسی های مکان کاربر است که باید خصوصی نگه داشته شوند.

با انگیزه چنین برنامه هایی، در “نقشه های حرارتی خصوصی متفاوت” (ارائه شده در AAAI 2023)، ما یک الگوریتم DP کارآمد را برای محاسبه نقشه های حرارتی با تضمین های قابل اثبات توصیف کرده و آن را به صورت تجربی ارزیابی می کنیم. در هسته الگوریتم DP ما برای نقشه‌های حرارتی، راه‌حلی برای مشکل اساسی نحوه جمع‌آوری خصوصی بردارهای ورودی پراکنده (یعنی بردارهای ورودی با تعداد کمی مختصات غیر صفر) با یک خطای کوچک که توسط فاصله حرکت‌دهنده زمین اندازه‌گیری می‌شود، وجود دارد. (EMD). با استفاده از یک روش پارتیشن بندی سلسله مراتبی، الگوریتم ما هر بردار ورودی و همچنین نقشه حرارتی خروجی را به عنوان توزیع احتمال بر روی تعدادی آیتم برابر با بعد داده ها مشاهده می کند. برای مشکل تجمع پراکنده تحت EMD، یک الگوریتم کارآمد با خطای مجانبی نزدیک به بهترین ممکن ارائه می‌دهیم.

توضیحات الگوریتم

الگوریتم ما با خصوصی‌سازی توزیع انبوه (که با میانگین‌گیری از تمام ورودی‌های کاربر به دست می‌آید) کار می‌کند، که برای محاسبه یک نقشه حرارتی نهایی که به دلیل ویژگی پس پردازش DP، خصوصی است، کافی است. این ویژگی تضمین می کند که هر تغییری در خروجی یک الگوریتم DP به طور متفاوت خصوصی باقی می ماند. سهم اصلی ما یک الگوریتم خصوصی سازی جدید برای توزیع انبوه است که در ادامه توضیح خواهیم داد.

اندازه‌گیری EMD، که اندازه‌گیری فاصله‌مانندی از عدم تشابه بین دو توزیع احتمال است که در ابتدا برای وظایف بینایی کامپیوتری پیشنهاد شده بود، برای نقشه‌های حرارتی مناسب است زیرا فضای متریک زیرین را در نظر می‌گیرد و سطل‌های “همسایه” را در نظر می‌گیرد. EMD در کاربردهای مختلفی از جمله یادگیری عمیق، تحلیل فضایی، تحرک انسان، بازیابی تصویر، تشخیص چهره، ردیابی بصری، تطبیق شکل و غیره استفاده می شود.

برای دستیابی به DP، باید نویز را به توزیع انبوه اضافه کنیم. ما همچنین می خواهیم آمار را در مقیاس های مختلف شبکه حفظ کنیم تا خطای EMD را به حداقل برسانیم. بنابراین، ما یک پارتیشن بندی سلسله مراتبی از شبکه ایجاد می کنیم، نویز را در هر سطح اضافه می کنیم و سپس در توزیع نهایی DP ترکیب می کنیم. به طور خاص، الگوریتم دارای مراحل زیر است:

  1. ساخت چهار درخت: روش پارتیشن بندی سلسله مراتبی ما ابتدا شبکه را به چهار سلول تقسیم می کند، سپس هر سلول را به چهار سلول فرعی تقسیم می کند. به صورت بازگشتی این فرآیند را تا زمانی ادامه می‌دهد که هر سلول یک پیکسل باشد. این رویه یک چهاردرخت بر روی زیرسلول ها ایجاد می کند که در آن ریشه کل شبکه و هر برگ نشان دهنده یک پیکسل است. سپس الگوریتم مجموع جرم احتمال را برای هر گره درخت محاسبه می‌کند (که با جمع کردن احتمالات توزیع انبوه همه برگ‌های درخت فرعی که در این گره ریشه دارند به دست می‌آید). این مرحله در زیر نشان داده شده است.
    در مرحله اول، توزیع انبوه (غیر خصوصی) را می گیریم (بالا سمت چپ) و به طور مکرر آن را تقسیم کنید تا یک چهار درخت ایجاد شود. سپس، جرم احتمال کل هر سلول را محاسبه می کنیم (پایین).
  2. اضافه شدن صدا: سپس به جرم هر گره درخت، نویز لاپلاس کالیبره شده را به مورد استفاده اضافه می کنیم.
  3. برش: برای کمک به کاهش مقدار نهایی نویز در توزیع انبوه DP ما، الگوریتم درخت را با شروع از ریشه طی می‌کند و در هر سطح، همه چیز را به جز قسمت بالایی حذف می‌کند. w گره هایی با بالاترین جرم (پر سر و صدا) همراه با فرزندانشان.
  4. بازسازی: در نهایت، الگوریتم یک برنامه خطی را برای بازیابی توزیع انباشته حل می کند. این برنامه خطی از ادبیات بازیابی پراکنده الهام گرفته شده است که در آن توده های نویز به عنوان اندازه گیری (نویزدار) داده ها مشاهده می شوند.
در مرحله 2، نویز به جرم احتمالی هر سلول اضافه می شود. سپس در مرحله 3، فقط سلول های top-w نگهداری می شوند (سبز) در حالی که سلول های باقی مانده کوتاه شده اند (قرمز). در نهایت، در مرحله آخر، یک برنامه خطی روی این سلول های بالا می نویسیم تا توزیع تجمع را بازسازی کنیم که اکنون به صورت خصوصی متفاوت است.

نتایج تجربی

ما عملکرد الگوریتم خود را در دو حوزه مختلف ارزیابی می‌کنیم: داده‌های بررسی مکان در دنیای واقعی و داده‌های برجسته تصویر. ما مکانیسم لاپلاس همه جا حاضر را به عنوان یک خط پایه در نظر می گیریم، جایی که نویز لاپلاس را به هر سلول اضافه می کنیم، سلول های منفی را صفر می کنیم و نقشه حرارتی را از این مجموعه پر سر و صدا تولید می کنیم. ما همچنین یک نوع “آستانه” از این خط پایه را در نظر می گیریم که برای داده های پراکنده مناسب تر است: فقط بالا نگه دارید تی٪ از مقادیر سلول (بر اساس جرم احتمال در هر سلول) پس از نویز کردن در حالی که بقیه را صفر می کند. برای ارزیابی کیفیت یک نقشه حرارتی خروجی در مقایسه با نقشه حرارتی واقعی، از ضریب پیرسون، واگرایی KL و EMD استفاده می کنیم. توجه داشته باشید که وقتی نقشه‌های حرارتی شبیه‌تر هستند، متریک اول افزایش می‌یابد اما دو مورد آخر کاهش می‌یابد.

مجموعه داده مکان ها با ترکیب دو مجموعه داده Gowalla و Brightkite به دست می آید که هر دو شامل بررسی های کاربران شبکه های اجتماعی مبتنی بر مکان هستند. ما این مجموعه داده را از قبل پردازش کردیم تا فقط اعلام حضور در قاره ایالات متحده را در نظر بگیریم که منجر به یک مجموعه داده نهایی متشکل از ~ 500,000 ورود توسط ~ 20,000 کاربر می شود. با در نظر گرفتن سلول های بالایی (از پارتیشن بندی اولیه کل فضا به یک شبکه 300 x 300) که دارای چک-in از حداقل 200 کاربر منحصر به فرد هستند، هر سلول از این قبیل را به زیرشبکه هایی با وضوح Δ × ∆ تقسیم می کنیم و هر چک را اختصاص می دهیم. به یکی از این زیرشبکه ها وارد شوید.

در اولین مجموعه آزمایش‌ها، 256 = ∆ را ثابت می‌کنیم. عملکرد الگوریتم خود را برای مقادیر مختلف ε (پارامتر حریم خصوصی، که در آن ε کوچکتر به معنای تضمین‌های DP قوی‌تر است)، از 0.1 تا 10، با اجرای الگوریتم‌هایمان با هم آزمایش می‌کنیم. با خط مبنا و انواع آن بر روی همه سلول‌ها، به طور تصادفی از مجموعه‌ای از 200 کاربر در هر آزمایش نمونه‌برداری کرد و سپس معیارهای فاصله بین نقشه حرارتی واقعی و نقشه حرارتی DP را محاسبه کرد. میانگین این معیارها در زیر ارائه شده است. الگوریتم ما (خط قرمز) بهتر از همه نسخه‌های خط مبنا در تمام معیارها عمل می‌کند، با پیشرفت‌هایی که مخصوصاً زمانی که ε خیلی بزرگ یا کوچک نباشد (یعنی 0.2 ≤ ε ≤ 5) قابل توجه است.

معیارها هنگام تغییر ε برای مجموعه داده مکان به طور میانگین بیش از 60 اجرا می‌شوند. مناطق سایه دار نشان دهنده فاصله اطمینان 95٪ است.

در مرحله بعد، تأثیر تغییر تعداد را مطالعه می کنیم n از کاربران با ثابت کردن یک سلول واحد (با بیش از 500 کاربر) و ε، ما تغییر می کنیم n از 50 تا 500 کاربر همانطور که توسط تئوری پیش‌بینی می‌شود، الگوریتم‌های ما و خط پایه عملکرد بهتری دارند n افزایش. با این حال، رفتار متغیرهای آستانه‌ای خط پایه کمتر قابل پیش‌بینی است.

ما همچنین آزمایش دیگری را انجام می‌دهیم که در آن یک سلول و ε را ثابت می‌کنیم و وضوح ∆ را از 64 تا 256 تغییر می‌دهیم. مطابق با نظریه، عملکرد الگوریتم ما تقریباً برای کل محدوده Δ ثابت می‌ماند. با این حال، با افزایش Δ، خط مبنا در تمام معیارها آسیب می بیند در حالی که متغیرهای آستانه گاهی اوقات با افزایش Δ بهبود می یابند.

تأثیر تعداد کاربران و وضوح شبکه بر EMD.

ما همچنین روی مجموعه داده برجسته تصویری سالیکون (SALICON) آزمایش کردیم. این مجموعه داده مجموعه ای از حاشیه نویسی های برجسته در پایگاه داده تصاویر مشترک Microsoft Common Objects in Context است. ما تصاویر را به وضوح ثابت 320 × 240 و هرکدام کوچک کردیم [user, image] جفت متشکل از دنباله ای از مختصات در تصویری است که کاربر در آن نگاه کرده است. ما آزمایش‌هایی را که قبلاً توضیح داده شد روی 38 تصویر نمونه‌برداری تصادفی (با 50 کاربر هر کدام) از SALICON تکرار می‌کنیم. همانطور که از مثال های زیر می بینیم، نقشه حرارتی به دست آمده توسط الگوریتم ما بسیار نزدیک به حقیقت زمین است.

مثال تجسم الگوریتم های مختلف برای دو تصویر طبیعی مختلف از SALICON برای ε = 10 و n = 50 کاربر الگوریتم‌ها از چپ به راست عبارتند از: نقشه حرارتی اصلی (بدون حریم خصوصی)، خط مبنا و ما.

نتایج تجربی اضافی، از جمله نتایج سایر مجموعه‌های داده، معیارها، پارامترهای حریم خصوصی و مدل‌های DP را می‌توان در این مقاله یافت.

نتیجه

ما یک الگوریتم خصوصی‌سازی را برای تجمیع توزیع پراکنده تحت معیار EMD ارائه کردیم که به نوبه خود یک الگوریتم برای تولید نقشه‌های حرارتی حفظ حریم خصوصی ارائه می‌دهد. الگوریتم ما به طور طبیعی به مدل‌های توزیع‌شده گسترش می‌یابد که می‌توانند مکانیسم لاپلاس را پیاده‌سازی کنند، از جمله مدل تجمیع امن و مدل مخلوط کردن. این در مورد مدل دقیق‌تر DP محلی صدق نمی‌کند، و ابداع الگوریتم‌های عملی نقشه حرارتی محلی DP/EMD برای تعداد «متوسط» کاربران و پارامترهای حریم خصوصی، یک سوال باز جالب باقی می‌ماند.

قدردانی ها

این کار به طور مشترک با Junfeng He، Kai Kohlhoff، Ravi Kumar، Pasin Manurangsi و Vidhya Navalpakkam انجام شد.

سئو PBN | خبر های جدید سئو و هک و سرور