مدل های زبان (LM) آموزش دیده برای پیش بینی کلمه بعدی متن ورودی داده شده، فناوری کلیدی برای بسیاری از برنامه ها هستند. [1, 2]. در Gboard، از LMها برای بهبود تجربه تایپ کاربران با پشتیبانی از ویژگیهایی مانند پیشبینی کلمه بعدی (NWP)، نوشتن هوشمند، تکمیل و پیشنهاد هوشمند، اسلاید برای تایپ استفاده میشود.، و تصحیح کنید. استقرار مدلها در دستگاههای کاربران به جای سرورهای سازمانی دارای مزایایی مانند تأخیر کمتر و حفظ حریم خصوصی بهتر برای استفاده از مدل است. در حالی که آموزش مدلهای روی دستگاه مستقیماً از دادههای کاربر به طور موثر عملکرد ابزار را برای برنامههایی مانند NWP و انتخاب متن هوشمند بهبود میبخشد، حفاظت از حریم خصوصی دادههای کاربر برای آموزش مدل مهم است.
ویژگیهای Gboard که توسط مدلهای زبان روی دستگاه ارائه میشوند. |
در این وبلاگ ما بحث می کنیم که چگونه سال ها پیشرفت تحقیقاتی اکنون آموزش خصوصی Gboard LM ها را تقویت می کند، از زمان توسعه اثبات مفهوم یادگیری فدرال (FL) در سال 2017 و حفظ حریم خصوصی متفاوت رسمی (DP) در سال 2022. FL تلفن های همراه را فعال می کند. برای یادگیری مشترک یک مدل در حالی که تمام داده های آموزشی روی دستگاه نگهداری می شود، و DP معیاری قابل سنجش از ناشناس سازی داده ها را ارائه می دهد. به طور رسمی، DP اغلب با (ه، د) با مقادیر کوچکتر نشان دهنده تضمین های قوی تر است. مدلهای یادگیری ماشینی (ML) دارای ضمانتهای معقول DP برای ε=10 و ضمانتهای DP قوی برای ε=1 در نظر گرفته میشوند. د کوچک است.
از امروز، همه LMهای شبکه عصبی NWP در Gboard با FL با ضمانتهای رسمی DP آموزش داده میشوند و همه راهاندازیهای آینده LMهای Gboard که بر روی دادههای کاربر آموزش داده میشوند، نیاز به DP دارند. این 30+ Gboard LM های روی دستگاه در بیش از 7 زبان و بیش از 15 کشور راه اندازی شده اند و (ه، د)-DP ضمانت های کوچک د از 10-10 و ɛ بین 0.994 و 13.69. تا جایی که ما می دانیم، این بزرگترین استقرار شناخته شده DP در سطح کاربر در تولید در گوگل یا هر جا دیگری است و اولین بار است که تضمین قوی DP ه < 1 برای مدل هایی که مستقیماً بر روی داده های کاربر آموزش داده شده اند اعلام شده است.
اصول و شیوه های حفظ حریم خصوصی در Gboard
در “آموزش فدرال خصوصی در Gboard”، ما در مورد اینکه چگونه اصول مختلف حریم خصوصی در حال حاضر در مدلهای تولید منعکس میشوند، بحث کردیم، از جمله:
- شفافیت و کنترل کاربر: ما اطلاعاتی را در مورد اینکه چه دادههایی استفاده میشوند، برای چه هدفی استفاده میشوند، چگونه در کانالهای مختلف پردازش میشوند و چگونه کاربران Gboard میتوانند به راحتی استفاده از داده را در مدلهای یادگیری پیکربندی کنند، ارائه میکنیم.
- به حداقل رساندن داده ها: FL بلافاصله فقط به روز رسانی های متمرکزی را جمع آوری می کند که یک مدل خاص را بهبود می بخشد. تجمیع امن (SecAgg) یک روش رمزگذاری است که تضمین میکند فقط به نتایج جمعآوری شده بهروزرسانیهای زودگذر میتوان دسترسی داشت.
- ناشناس سازی داده ها: DP توسط سرور اعمال می شود تا مدل ها نتوانند اطلاعات منحصر به فرد را در داده های آموزشی هر کاربر به خاطر بسپارند.
- قابلیت حسابرسی و تایید پذیری: ما رویکردهای الگوریتمی کلیدی و حسابداری حریم خصوصی را در کد منبع باز (تجمع کننده TFF، TFP DPQuery، حسابداری DP، و سیستم FL) عمومی کرده ایم.
یک تاریخچه مختصر
در سالهای اخیر، FL به روش پیشفرض برای آموزش LMهای Gboard روی دستگاه از دادههای کاربر تبدیل شده است. در سال 2020، یک مکانیسم DP که بهروزرسانیهای مدل را قطع میکند و نویز اضافه میکند، برای جلوگیری از به خاطر سپردن برای آموزش LM اسپانیایی در اسپانیا، استفاده شد که ضمانتهای DP محدود را برآورده میکند (سطح 3 در راهنمای «چگونه DP-fy ML» توضیح داده شده است). در سال 2022، با کمک الگوریتم DP-Follow-The-Regularized-Leader (DP-FTRL)، LM اسپانیا به اولین شبکه عصبی تولیدی تبدیل شد که مستقیماً بر روی دادههای کاربر اعلام شده با ضمانت DP رسمی (ε=8.9، δ=10-10)-DP (معادل گزارش شده p=0.81 Zero-Concentrated-Differential-Privacy)، و بنابراین تضمین های حریم خصوصی منطقی را برآورده می کند (سطح 2).
حریم خصوصی دیفرانسیل به طور پیش فرض در یادگیری فدرال
در «یادگیری فدرال مدلهای زبان Gboard با حریم خصوصی متفاوت»، اعلام کردیم که همه LMهای شبکه عصبی NWP در Gboard دارای ضمانتهای DP هستند و همه راهاندازیهای آتی Gboard LMهایی که بر روی دادههای کاربر آموزش دیدهاند، به ضمانتهای DP نیاز دارند. DP در FL با اعمال روش های زیر فعال می شود:
- مدل را با مجموعه داده چند زبانه C4 از قبل آموزش دهید.
- از طریق آزمایشهای شبیهسازی روی مجموعه دادههای عمومی، نسبت نویز DP به سیگنال بزرگ را پیدا کنید که امکان استفاده بالا را فراهم میکند. افزایش تعداد مشتریانی که در یک دور بهروزرسانی مدل مشارکت میکنند، حریم خصوصی را بهبود میبخشد و در عین حال نسبت نویز را برای استفاده خوب، تا زمانی که هدف DP برآورده میشود، یا حداکثر مجاز سیستم و اندازه جمعیت، ثابت نگه میدارد.
- بر اساس بودجه محاسباتی و جمعیت تخمینی در سیستم FL، پارامتر را برای محدود کردن فرکانسی که هر مشتری میتواند مشارکت دهد (مثلاً هر چند روز یک بار) پیکربندی کنید.
- آموزش DP-FTRL را با محدودیتهایی در میزان بهروزرسانیهای هر دستگاه که از طریق برش تطبیقی انتخاب میشود یا بر اساس تجربه ثابت شده است، اجرا کنید.
SecAgg را می توان با اتخاذ پیشرفت هایی در بهبود محاسبات و ارتباطات برای مقیاس ها و حساسیت به کار برد.
یادگیری فدرال با حریم خصوصی تفاضلی و (SecAgg). |
گزارش ضمانت های DP
ضمانتهای DP از Gboard NWP LM راهاندازی شده در بارپلات زیر به تصویر کشیده شده است. این ایکسمحور LMهایی را نشان میدهد که با زبان محلی برچسبگذاری شده و بر روی جمعیتهای مربوطه آموزش دیدهاند. را yمحور را نشان می دهد ه ارزش زمانی که د به مقدار کوچک 10 ثابت می شود-10 برای (ε, δ) -DP (کمتر بهتر است). کاربرد این مدلها یا بهطور قابلتوجهی بهتر از مدلهای غیر عصبی قبلی در تولید هستند، یا قابل مقایسه با LMهای قبلی بدون DP، که بر اساس معیارهای تعامل کاربر در طول آزمایش A/B اندازهگیری میشوند. به عنوان مثال، با اعمال بهترین شیوه ها، ضمانت DP مدل اسپانیایی در اسپانیا بهبود می یابد ε=8.9 به ه=5.37. SecAgg علاوه بر این برای آموزش مدل اسپانیایی در اسپانیا و مدل انگلیسی در ایالات متحده استفاده می شود. جزئیات بیشتر ضمانتهای DP در پیوست به دنبال دستورالعملهای مشخص شده در «نحوه DP-fy ML» گزارش شده است.
به سوی تضمین های قوی تر DP
این ه~ 10 ضمانت DP بسیاری از LM های راه اندازی شده از قبل برای مدل های ML در عمل منطقی تلقی می شوند، در حالی که سفر DP FL در Gboard برای بهبود تجربه تایپ کاربر و در عین حال محافظت از حریم خصوصی داده ها ادامه دارد. ما مشتاقیم اعلام کنیم که برای اولین بار، LM های تولیدی پرتغالی در برزیل و اسپانیایی در آمریکای لاتین با ضمانت DP آموزش دیده و راه اندازی می شوند. ه ≤ 1، که ضمانت های حریم خصوصی قوی ردیف 1 را برآورده می کند. به طور خاص، (ه=0.994، د=10-10)-ضمانت DP با اجرای الگوریتم پیشرفته Matrix Factorization DP-FTRL (MF-DP-FTRL) با بیش از 12000 دستگاه که در هر دور آموزشی به روز رسانی مدل سرور بزرگتر از تنظیمات رایج بیش از 6500 دستگاه شرکت می کنند و با دقت به دست می آید. خط مشی پیکربندی شده برای محدود کردن هر مشتری برای شرکت حداکثر دو بار در مجموع 2000 دوره آموزشی در 14 روز در جمعیت پرتغالی کاربران برزیل. با استفاده از تنظیمات مشابه، LM اسپانیایی es-US در جمعیت زیادی که چندین کشور را در آمریکای لاتین ترکیب کرده بودند آموزش دید تا به (ه=0.994، د=10-10)-DP. این ه ≤ 1 مدل es-US به طور قابل توجهی ابزار را در بسیاری از کشورها بهبود بخشید و در کلمبیا، اکوادور، گواتمالا، مکزیک و ونزوئلا راه اندازی شد. برای جمعیت کوچکتر در اسپانیا، ضمانت DP es-ES LM از بهبود یافته است ε=5.37 به ه3.42 = فقط با جایگزینی DP-FTRL با MF-DP-FTRL بدون افزایش تعداد دستگاه های شرکت کننده در هر دور. جزئیات فنی بیشتر در colab برای حسابداری حریم خصوصی فاش شده است.
ضمانتهای DP برای Gboard NWP LM (نوار بنفش نشاندهنده اولین راهاندازی es-ES با ε=8.9 است؛ میلههای فیروزهای نشاندهنده بهبود حریم خصوصی برای مدلهایی است که با MF-DP-FTRL آموزش دیدهاند؛ ردیفها از راهنمای «How to DP-fy ML» هستند. en-US* و es-ES* علاوه بر این با SecAgg آموزش می بینند. |
بحث و مراحل بعدی
تجربه ما نشان می دهد که DP را می توان در عمل از طریق طراحی مشترک الگوریتم سیستم در مشارکت مشتری به دست آورد، و اینکه هم حریم خصوصی و هم سودمندی زمانی که جمعیت زیاد است می تواند قوی باشد. و تعداد زیادی از کمک های دستگاه ها جمع شده است. معاوضه محاسبات محرمانه، ابزار و محاسبات را می توان با استفاده از داده های عمومی، الگوریتم جدید MF-DP-FTRL و حسابداری سخت تر بهبود بخشید. با این تکنیک ها، تضمین DP قوی از ه ≤ 1 ممکن است اما همچنان چالش برانگیز است. تحقیق فعال در مورد حسابرسی تجربی حریم خصوصی [1, 2] نشان می دهد که مدل های DP به طور بالقوه خصوصی تر از بدترین ضمانت های DP هستند. در حالی که ما مرزهای الگوریتمها را پیش میبریم، کدام بعد از محاسبات محرمانگی باید در اولویت قرار گیرد؟
ما فعالانه روی همه جنبههای حریم خصوصی ML کار میکنیم، از جمله گسترش DP-FTRL به DP توزیعشده و بهبود قابلیت بازرسی و تأیید. Trusted Execution Environment این فرصت را برای افزایش قابل ملاحظه اندازه مدل با حفظ حریم خصوصی قابل تأیید باز می کند. پیشرفت اخیر در LMهای بزرگ (LLM) ما را بر آن می دارد تا در مورد استفاده از اطلاعات عمومی در آموزش خصوصی و تعاملات آینده بیشتر بین LLMها، LMهای روی دستگاه و تولید Gboard تجدید نظر کنیم.
قدردانی
نویسندگان مایلند از پیتر کایروز، برندان مک ماهان و دانیل رامج برای بازخورد اولیه خود در مورد پست وبلاگ، شائوفنگ لی و تام اسمال برای کمک به چهره های متحرک و تیم هایی در گوگل که در طراحی الگوریتم و اجرای زیرساخت کمک کردند تشکر کنند. ، و نگهداری تولید. همکاران زیر مستقیماً به نتایج ارائه شده کمک می کنند:
تحقیق و توسعه الگوریتم: گالن اندرو، استانیسلاو چیکنواریان، کریستوفر آ. شوکت چو، آرون گانش، پیتر کایروز، رایان مککنا، اچ. برندان مک ماهان، جسی روزنستاک، تیمون ون اوورولد، کیث راش، شوانگ سونگ، توماس استینکه، آبراد تاکورتا، ام تاکار، و یوانبو ژانگ.
زیرساخت، تولید و پشتیبانی رهبری: Mingqing Chen، Stefan Dierauf، Billy Dou، Hubert Eichner، Zachary Garrett، Jeremy Gillula، Jianpeng Hou، Hui Li، Xu Liu، Wenzhi Mao، Brett McLarnon، Mengchen Pei، Daniel Ramagewamy، Swaroop Ramas سان، آندریاس ترزیس، یون وانگ، شانشان وو، یو شیائو و شومین ژای.