خوشه بندی خصوصی متفاوت برای مجموعه داده های در مقیاس بزرگ – وبلاگ هوش مصنوعی گوگل

خوشه بندی یک مشکل اصلی در یادگیری ماشینی بدون نظارت (ML) با کاربردهای فراوان در حوزه های مختلف در صنعت و تحقیقات دانشگاهی به طور گسترده تر است. در هسته خود، خوشه بندی شامل مشکل زیر است: با توجه به مجموعه ای از عناصر داده، هدف این است که عناصر داده را به گروه هایی تقسیم کنیم به طوری که اشیاء مشابه در یک گروه قرار گیرند، در حالی که اشیاء غیر مشابه در گروه های مختلف قرار دارند. این مسئله بیش از 60 سال است که در ریاضیات، علوم کامپیوتر، تحقیقات عملیات و آمار در انواع بی‌شمار آن مورد مطالعه قرار گرفته است. دو شکل متداول خوشه‌بندی، خوشه‌بندی متریک است که در آن عناصر، نقاطی در یک فضای متریک هستند، مانند k-به معنی مشکل و خوشه بندی گراف، که در آن عناصر گره های یک گراف هستند که لبه های آن نشان دهنده شباهت بین آنهاست.

در k-به معنی مشکل خوشه بندی، مجموعه ای از نقاط در یک فضای متریک با هدف شناسایی به ما داده می شود ک نقاط معرف، مراکز نامیده می شوند (در اینجا به صورت مثلث نشان داده شده اند)، به طوری که مجموع فاصله های مجذور هر نقطه تا نزدیکترین مرکز آن به حداقل برسد. منبع، حقوق: CC-BY-SA-4.0

با وجود ادبیات گسترده در مورد طراحی الگوریتم برای خوشه‌بندی، تعداد کمی از آثار عملی بر محافظت دقیق از حریم خصوصی کاربر در طول خوشه‌بندی متمرکز شده‌اند. هنگامی که خوشه‌بندی برای داده‌های شخصی اعمال می‌شود (مثلاً پرسش‌هایی که کاربر انجام داده است)، لازم است پیامدهای حفظ حریم خصوصی استفاده از راه‌حل خوشه‌بندی در یک سیستم واقعی و میزان اطلاعاتی که راه‌حل خروجی در مورد داده‌های ورودی نشان می‌دهد در نظر گرفته شود.

برای اطمینان از حریم خصوصی به معنای دقیق، یک راه حل توسعه الگوریتم های خوشه بندی خصوصی متفاوت (DP) است. این الگوریتم‌ها تضمین می‌کنند که خروجی خوشه‌بندی اطلاعات خصوصی در مورد یک عنصر داده خاص (مثلاً اینکه آیا کاربر یک پرس و جو داده است) یا داده‌های حساس در مورد نمودار ورودی (مثلاً یک رابطه در یک شبکه اجتماعی) را نشان نمی‌دهد. با توجه به اهمیت حفاظت از حریم خصوصی در یادگیری ماشینی بدون نظارت، در سال‌های اخیر Google روی تحقیق در مورد تئوری و عمل خوشه‌بندی متریک یا نمودار خصوصی متفاوت و حریم خصوصی متفاوت در زمینه‌های مختلف، به عنوان مثال، نقشه‌های حرارتی یا ابزارهایی برای طراحی الگوریتم‌های DP سرمایه‌گذاری کرده است.

امروز ما مشتاق هستیم که دو به‌روزرسانی مهم را اعلام کنیم: 1) یک الگوریتم خصوصی متفاوت برای خوشه‌بندی گراف سلسله مراتبی که در ICML 2023 ارائه خواهیم کرد، و 2) انتشار منبع باز کد یک مقیاس خصوصی متفاوت و مقیاس‌پذیر. ک-الگوریتم معنی این کد خصوصی متفاوتی را به ارمغان می آورد ک-به معنای خوشه بندی به مجموعه داده های مقیاس بزرگ با استفاده از محاسبات توزیع شده. در اینجا، ما همچنین درباره کار خود در زمینه خوشه بندی فناوری برای راه اندازی اخیر در حوزه سلامت برای اطلاع رسانی به مقامات بهداشت عمومی بحث خواهیم کرد.

خوشه بندی سلسله مراتبی خصوصی متفاوت

خوشه‌بندی سلسله مراتبی یک رویکرد خوشه‌بندی محبوب است که شامل تقسیم‌بندی بازگشتی یک مجموعه داده به خوشه‌ها با دانه‌بندی فزاینده‌تر است. یک مثال شناخته شده از خوشه بندی سلسله مراتبی، درخت فیلوژنتیک در زیست شناسی است که در آن تمام حیات روی زمین به گروه های ظریف و ظریف (مانند پادشاهی، شاخه، طبقه، نظم و غیره) تقسیم می شود. یک الگوریتم خوشه‌بندی سلسله مراتبی نموداری را به عنوان ورودی دریافت می‌کند که شباهت موجودیت‌ها را نشان می‌دهد و چنین پارتیشن‌های بازگشتی را به روشی بدون نظارت می‌آموزد. با این حال، در زمان تحقیق ما هیچ الگوریتمی برای محاسبه خوشه‌بندی سلسله مراتبی یک نمودار با حریم خصوصی لبه، یعنی حفظ حریم خصوصی تعاملات راس، شناخته نشده بود.

در «خوشه‌بندی سلسله مراتبی خصوصی با ضمانت‌های تقریبی قابل اثبات»، ما در نظر می‌گیریم که چقدر می‌توان مشکل را در زمینه DP تقریب زد و مرزهای بالایی و پایینی را در تضمین حریم خصوصی ایجاد کرد. ما یک الگوریتم تقریبی (اولین در نوع خود) با زمان اجرای چند جمله‌ای طراحی می‌کنیم که هم به یک خطای افزایشی دست می‌یابد که با تعداد گره‌ها مقیاس می‌شود. n (به ترتیب n2.5) و تقریب ضربی O(log½ n)، با خطای ضربی مشابه با تنظیمات غیر خصوصی. ما همچنین یک کران پایینی جدید برای خطای افزودنی (از ترتیب) ارائه می دهیم n2) برای هر الگوریتم خصوصی (صرف نظر از زمان اجرای آن) و یک الگوریتم زمان نمایی ارائه کنید که با این کران پایین مطابقت دارد. علاوه بر این، مقاله ما شامل یک تجزیه و تحلیل فراتر از بدترین حالت است که بر مدل بلوک تصادفی سلسله مراتبی تمرکز دارد، یک مدل نمودار تصادفی استاندارد که ساختار خوشه‌بندی سلسله مراتبی طبیعی را نشان می‌دهد و یک الگوریتم خصوصی را معرفی می‌کند که راه‌حلی را با هزینه افزایشی بیش از حد مطلوب برمی‌گرداند. برای نمودارهای بزرگتر و بزرگتر ناچیز است و دوباره با رویکردهای پیشرفته غیرخصوصی مطابقت دارد. ما معتقدیم که این کار درک الگوریتم‌های حفظ حریم خصوصی را بر روی داده‌های نمودار گسترش می‌دهد و برنامه‌های جدید را در چنین تنظیماتی فعال می‌کند.

خوشه بندی خصوصی متفاوت در مقیاس بزرگ

اکنون دنده‌ها را عوض می‌کنیم و درباره کار خود برای خوشه‌بندی فضای متریک بحث می‌کنیم. اکثر کارهای قبلی در خوشه بندی متریک DP بر بهبود تضمین های تقریبی الگوریتم ها در ک-به معنای هدف، کنار گذاشتن سوالات مقیاس پذیری از تصویر. در واقع، مشخص نیست که الگوریتم‌های غیرخصوصی چقدر کارآمد هستند k-به معنی ++ یا k-means// را می توان به طور متفاوت خصوصی کرد بدون اینکه به شدت ضمانت های تقریب یا مقیاس پذیری را قربانی کند. از سوی دیگر، مقیاس پذیری و حریم خصوصی در گوگل از اهمیت اولیه برخوردار هستند. به همین دلیل، اخیراً مقالات متعددی منتشر کردیم که به مشکل طراحی الگوریتم‌های خصوصی متفاوت کارآمد برای خوشه‌بندی می‌پردازند که می‌توانند به مجموعه داده‌های عظیم مقیاس شوند. هدف ما، علاوه بر این، ارائه مقیاس‌پذیری به مجموعه داده‌های ورودی در مقیاس بزرگ است، حتی زمانی که تعداد مراکز هدف، ک، بزرگ است.

ما در مدل محاسبات موازی انبوه (MPC) کار می کنیم، که یک مدل محاسباتی نماینده معماری های محاسباتی توزیع شده مدرن است. این مدل از چندین ماشین تشکیل شده است که هر کدام تنها بخشی از داده های ورودی را در خود دارند که با هدف حل یک مشکل جهانی و در عین حال به حداقل رساندن میزان ارتباط بین ماشین ها با هم کار می کنند. ما یک الگوریتم تقریب عامل ثابت خصوصی متفاوت را برای ک-به این معنی است که فقط به تعداد ثابتی از دور همگام سازی نیاز دارد. الگوریتم ما بر اساس کار قبلی ما روی مشکل (با کد موجود در اینجا) استوار است، که اولین الگوریتم خوشه‌بندی خصوصی متفاوت با تضمین‌های تقریبی قابل اثبات بود که می‌تواند در مدل MPC کار کند.

الگوریتم تقریب عامل ثابت DP با استفاده از یک رویکرد دو فازی به شدت نسبت به کار قبلی بهبود می‌یابد. در مرحله اولیه، یک تقریب خام را برای “دانه” فاز دوم محاسبه می کند، که از یک الگوریتم توزیع پیچیده تر تشکیل شده است. مجهز به تقریب مرحله اول، فاز دوم بر نتایج حاصل از ادبیات Coreset تکیه دارد تا مجموعه ای از نقاط ورودی مرتبط را نمونه برداری کند و راه حل خوشه بندی خصوصی متفاوت خوبی برای نقاط ورودی پیدا کند. سپس ثابت می کنیم که این راه حل با تضمین تقریباً یکسانی به کل ورودی تعمیم می یابد.

بینش جستجوی واکسیناسیون از طریق خوشه بندی DP

سپس این پیشرفت‌ها را در خوشه‌بندی خصوصی متفاوت در برنامه‌های دنیای واقعی اعمال می‌کنیم. یک مثال، استفاده از راه‌حل خوشه‌بندی خصوصی متفاوت ما برای انتشار پرسش‌های مرتبط با واکسن کووید است، در حالی که محافظت‌های قوی از حریم خصوصی برای کاربران ارائه می‌کنیم.

هدف Insights جستجوی واکسیناسیون (VSI) کمک به تصمیم‌گیرندگان بهداشت عمومی (مقامات بهداشتی، سازمان‌های دولتی و سازمان‌های غیرانتفاعی) برای شناسایی و پاسخگویی به نیازهای اطلاعاتی جوامع در مورد واکسن‌های کووید است. برای دستیابی به این هدف، این ابزار به کاربران اجازه می دهد تا در جزئیات موقعیت جغرافیایی مختلف (کد پستی، سطح شهرستان و ایالت در ایالات متحده) مضامین برتر جستجو شده توسط کاربران در مورد جستارهای مربوط به کووید را بررسی کنند. به طور خاص، این ابزار آمار مربوط به جستجوهای پرطرفدار را به تصویر می کشد که در یک مکان و زمان معین علاقه مند می شوند.

اسکرین شات از خروجی ابزار. در سمت چپ، جستجوهای برتر مربوط به واکسن‌های کووید در طول دوره 10-16 اکتبر 2022 نمایش داده می‌شود. در سمت راست، جستارهایی که در مدت مشابه و در مقایسه با هفته قبل اهمیت فزاینده‌ای داشته‌اند.

برای کمک به شناسایی بهتر مضامین جستجوهای پرطرفدار، این ابزار عبارت‌های جستجو را بر اساس شباهت معنایی آنها خوشه‌بندی می‌کند. این کار با استفاده از طراحی سفارشی انجام می شود کالگوریتم مبتنی بر میانگین بر روی داده‌های جستجو اجرا می‌شود که با استفاده از مکانیسم DP Gaussian برای اضافه کردن نویز و حذف پرس و جوهای کم‌شمار ناشناس شده‌اند (در نتیجه منجر به خوشه‌بندی متفاوت می‌شود). این روش تضمین‌های متفاوتی را برای حفظ حریم خصوصی برای محافظت از داده‌های کاربر تضمین می‌کند.

این ابزار داده‌های دقیقی را در مورد درک واکسن کووید در جمعیت در مقیاس‌های بی‌سابقه‌ای از دانه‌بندی ارائه می‌کند، چیزی که به ویژه برای درک نیازهای جوامع به حاشیه رانده شده که به طور نامتناسبی تحت تأثیر کووید قرار گرفته‌اند مرتبط است. این پروژه تأثیر سرمایه گذاری ما در تحقیق در حریم خصوصی متفاوت و روش های ML بدون نظارت را برجسته می کند. ما به دنبال حوزه‌های مهم دیگری هستیم که می‌توانیم این تکنیک‌های خوشه‌بندی را برای کمک به تصمیم‌گیری در مورد چالش‌های بهداشت جهانی، مانند پرسش‌های جستجو در مورد چالش‌های مرتبط با تغییرات آب و هوا، مانند کیفیت هوا یا گرمای شدید، به کار ببریم.

سپاسگزاریها

از نویسندگان همکار خود سیلویو لاتانزی، وهاب میروکنی، آندرس مونوز مدینا، شیام نارایانان، دیوید ساولپیک، کریس شویگلشون، سرگئی واسیلویتسکی، پیلین ژونگ و همکارانمان از هوش مصنوعی سلامت تیمی که راه اندازی VSI را ممکن کرد، شیلش باوادکار، آدام بولانگر، تاگ گریفیث، مانسی کانسال، چایتانیا کامات، آکیم کوموک، یائل مایر، تومر شیکل، مگان شوم، شارلوت استانتون، میمی سان، سواپنیل ویسپوت و مارک یانگ.

برای اطلاعات بیشتر در مورد تیم Graph Mining (بخشی از الگوریتم و بهینه سازی) از صفحات ما دیدن کنید.