پیشرفت‌ها در آموزش خصوصی برای تولید مدل‌های زبان روی دستگاه – وبلاگ تحقیقاتی Google

مدل های زبان (LM) آموزش دیده برای پیش بینی کلمه بعدی متن ورودی داده شده، فناوری کلیدی برای بسیاری از برنامه ها هستند. [1, 2]. در Gboard، از LMها برای بهبود تجربه تایپ کاربران با پشتیبانی از ویژگی‌هایی مانند پیش‌بینی کلمه بعدی (NWP)، نوشتن هوشمند، تکمیل و پیشنهاد هوشمند، اسلاید برای تایپ استفاده می‌شود.، و تصحیح کنید. استقرار مدل‌ها در دستگاه‌های کاربران به جای سرورهای سازمانی دارای مزایایی مانند تأخیر کمتر و حفظ حریم خصوصی بهتر برای استفاده از مدل است. در حالی که آموزش مدل‌های روی دستگاه مستقیماً از داده‌های کاربر به طور موثر عملکرد ابزار را برای برنامه‌هایی مانند NWP و انتخاب متن هوشمند بهبود می‌بخشد، حفاظت از حریم خصوصی داده‌های کاربر برای آموزش مدل مهم است.

ویژگی‌های Gboard که توسط مدل‌های زبان روی دستگاه ارائه می‌شوند.

در این وبلاگ ما بحث می کنیم که چگونه سال ها پیشرفت تحقیقاتی اکنون آموزش خصوصی Gboard LM ها را تقویت می کند، از زمان توسعه اثبات مفهوم یادگیری فدرال (FL) در سال 2017 و حفظ حریم خصوصی متفاوت رسمی (DP) در سال 2022. FL تلفن های همراه را فعال می کند. برای یادگیری مشترک یک مدل در حالی که تمام داده های آموزشی روی دستگاه نگهداری می شود، و DP معیاری قابل سنجش از ناشناس سازی داده ها را ارائه می دهد. به طور رسمی، DP اغلب با (ه، د) با مقادیر کوچکتر نشان دهنده تضمین های قوی تر است. مدل‌های یادگیری ماشینی (ML) دارای ضمانت‌های معقول DP برای ε=10 و ضمانت‌های DP قوی برای ε=1 در نظر گرفته می‌شوند. د کوچک است.

از امروز، همه LMهای شبکه عصبی NWP در Gboard با FL با ضمانت‌های رسمی DP آموزش داده می‌شوند و همه راه‌اندازی‌های آینده LM‌های Gboard که بر روی داده‌های کاربر آموزش داده می‌شوند، نیاز به DP دارند. این 30+ Gboard LM های روی دستگاه در بیش از 7 زبان و بیش از 15 کشور راه اندازی شده اند و (ه، د)-DP ضمانت های کوچک د از 10-10 و ɛ بین 0.994 و 13.69. تا جایی که ما می دانیم، این بزرگترین استقرار شناخته شده DP در سطح کاربر در تولید در گوگل یا هر جا دیگری است و اولین بار است که تضمین قوی DP ه < 1 برای مدل هایی که مستقیماً بر روی داده های کاربر آموزش داده شده اند اعلام شده است.

اصول و شیوه های حفظ حریم خصوصی در Gboard

در “آموزش فدرال خصوصی در Gboard”، ما در مورد اینکه چگونه اصول مختلف حریم خصوصی در حال حاضر در مدل‌های تولید منعکس می‌شوند، بحث کردیم، از جمله:

  • شفافیت و کنترل کاربر: ما اطلاعاتی را در مورد اینکه چه داده‌هایی استفاده می‌شوند، برای چه هدفی استفاده می‌شوند، چگونه در کانال‌های مختلف پردازش می‌شوند و چگونه کاربران Gboard می‌توانند به راحتی استفاده از داده را در مدل‌های یادگیری پیکربندی کنند، ارائه می‌کنیم.
  • به حداقل رساندن داده ها: FL بلافاصله فقط به روز رسانی های متمرکزی را جمع آوری می کند که یک مدل خاص را بهبود می بخشد. تجمیع امن (SecAgg) یک روش رمزگذاری است که تضمین می‌کند فقط به نتایج جمع‌آوری شده به‌روزرسانی‌های زودگذر می‌توان دسترسی داشت.
  • ناشناس سازی داده ها: DP توسط سرور اعمال می شود تا مدل ها نتوانند اطلاعات منحصر به فرد را در داده های آموزشی هر کاربر به خاطر بسپارند.
  • قابلیت حسابرسی و تایید پذیری: ما رویکردهای الگوریتمی کلیدی و حسابداری حریم خصوصی را در کد منبع باز (تجمع کننده TFF، TFP DPQuery، حسابداری DP، و سیستم FL) عمومی کرده ایم.

یک تاریخچه مختصر

در سال‌های اخیر، FL به روش پیش‌فرض برای آموزش LM‌های Gboard روی دستگاه از داده‌های کاربر تبدیل شده است. در سال 2020، یک مکانیسم DP که به‌روزرسانی‌های مدل را قطع می‌کند و نویز اضافه می‌کند، برای جلوگیری از به خاطر سپردن برای آموزش LM اسپانیایی در اسپانیا، استفاده شد که ضمانت‌های DP محدود را برآورده می‌کند (سطح 3 در راهنمای «چگونه DP-fy ML» توضیح داده شده است). در سال 2022، با کمک الگوریتم DP-Follow-The-Regularized-Leader (DP-FTRL)، LM اسپانیا به اولین شبکه عصبی تولیدی تبدیل شد که مستقیماً بر روی داده‌های کاربر اعلام شده با ضمانت DP رسمی (ε=8.9، δ=10-10)-DP (معادل گزارش شده p=0.81 Zero-Concentrated-Differential-Privacy)، و بنابراین تضمین های حریم خصوصی منطقی را برآورده می کند (سطح 2).

حریم خصوصی دیفرانسیل به طور پیش فرض در یادگیری فدرال

در «یادگیری فدرال مدل‌های زبان Gboard با حریم خصوصی متفاوت»، اعلام کردیم که همه LM‌های شبکه عصبی NWP در Gboard دارای ضمانت‌های DP هستند و همه راه‌اندازی‌های آتی Gboard LM‌هایی که بر روی داده‌های کاربر آموزش دیده‌اند، به ضمانت‌های DP نیاز دارند. DP در FL با اعمال روش های زیر فعال می شود:

  • مدل را با مجموعه داده چند زبانه C4 از قبل آموزش دهید.
  • از طریق آزمایش‌های شبیه‌سازی روی مجموعه داده‌های عمومی، نسبت نویز DP به سیگنال بزرگ را پیدا کنید که امکان استفاده بالا را فراهم می‌کند. افزایش تعداد مشتریانی که در یک دور به‌روزرسانی مدل مشارکت می‌کنند، حریم خصوصی را بهبود می‌بخشد و در عین حال نسبت نویز را برای استفاده خوب، تا زمانی که هدف DP برآورده می‌شود، یا حداکثر مجاز سیستم و اندازه جمعیت، ثابت نگه می‌دارد.
  • بر اساس بودجه محاسباتی و جمعیت تخمینی در سیستم FL، پارامتر را برای محدود کردن فرکانسی که هر مشتری می‌تواند مشارکت دهد (مثلاً هر چند روز یک بار) پیکربندی کنید.
  • آموزش DP-FTRL را با محدودیت‌هایی در میزان به‌روزرسانی‌های هر دستگاه که از طریق برش تطبیقی ​​انتخاب می‌شود یا بر اساس تجربه ثابت شده است، اجرا کنید.

SecAgg را می توان با اتخاذ پیشرفت هایی در بهبود محاسبات و ارتباطات برای مقیاس ها و حساسیت به کار برد.

یادگیری فدرال با حریم خصوصی تفاضلی و (SecAgg).

گزارش ضمانت های DP

ضمانت‌های DP از Gboard NWP LM راه‌اندازی شده در بارپلات زیر به تصویر کشیده شده است. این ایکسمحور LMهایی را نشان می‌دهد که با زبان محلی برچسب‌گذاری شده و بر روی جمعیت‌های مربوطه آموزش دیده‌اند. را yمحور را نشان می دهد ه ارزش زمانی که د به مقدار کوچک 10 ثابت می شود-10 برای (ε, δ) -DP (کمتر بهتر است). کاربرد این مدل‌ها یا به‌طور قابل‌توجهی بهتر از مدل‌های غیر عصبی قبلی در تولید هستند، یا قابل مقایسه با LM‌های قبلی بدون DP، که بر اساس معیارهای تعامل کاربر در طول آزمایش A/B اندازه‌گیری می‌شوند. به عنوان مثال، با اعمال بهترین شیوه ها، ضمانت DP مدل اسپانیایی در اسپانیا بهبود می یابد ε=8.9 به ه=5.37. SecAgg علاوه بر این برای آموزش مدل اسپانیایی در اسپانیا و مدل انگلیسی در ایالات متحده استفاده می شود. جزئیات بیشتر ضمانت‌های DP در پیوست به دنبال دستورالعمل‌های مشخص شده در «نحوه DP-fy ML» گزارش شده است.

به سوی تضمین های قوی تر DP

این ه~ 10 ضمانت DP بسیاری از LM های راه اندازی شده از قبل برای مدل های ML در عمل منطقی تلقی می شوند، در حالی که سفر DP FL در Gboard برای بهبود تجربه تایپ کاربر و در عین حال محافظت از حریم خصوصی داده ها ادامه دارد. ما مشتاقیم اعلام کنیم که برای اولین بار، LM های تولیدی پرتغالی در برزیل و اسپانیایی در آمریکای لاتین با ضمانت DP آموزش دیده و راه اندازی می شوند. ه ≤ 1، که ضمانت های حریم خصوصی قوی ردیف 1 را برآورده می کند. به طور خاص، (ه=0.994، د=10-10)-ضمانت DP با اجرای الگوریتم پیشرفته Matrix Factorization DP-FTRL (MF-DP-FTRL) با بیش از 12000 دستگاه که در هر دور آموزشی به روز رسانی مدل سرور بزرگتر از تنظیمات رایج بیش از 6500 دستگاه شرکت می کنند و با دقت به دست می آید. خط مشی پیکربندی شده برای محدود کردن هر مشتری برای شرکت حداکثر دو بار در مجموع 2000 دوره آموزشی در 14 روز در جمعیت پرتغالی کاربران برزیل. با استفاده از تنظیمات مشابه، LM اسپانیایی es-US در جمعیت زیادی که چندین کشور را در آمریکای لاتین ترکیب کرده بودند آموزش دید تا به (ه=0.994، د=10-10)-DP. این ه ≤ 1 مدل es-US به طور قابل توجهی ابزار را در بسیاری از کشورها بهبود بخشید و در کلمبیا، اکوادور، گواتمالا، مکزیک و ونزوئلا راه اندازی شد. برای جمعیت کوچکتر در اسپانیا، ضمانت DP es-ES LM از بهبود یافته است ε=5.37 به ه3.42 = فقط با جایگزینی DP-FTRL با MF-DP-FTRL بدون افزایش تعداد دستگاه های شرکت کننده در هر دور. جزئیات فنی بیشتر در colab برای حسابداری حریم خصوصی فاش شده است.

ضمانت‌های DP برای Gboard NWP LM (نوار بنفش نشان‌دهنده اولین راه‌اندازی es-ES با ε=8.9 است؛ میله‌های فیروزه‌ای نشان‌دهنده بهبود حریم خصوصی برای مدل‌هایی است که با MF-DP-FTRL آموزش دیده‌اند؛ ردیف‌ها از راهنمای «How to DP-fy ML» هستند. en-US* و es-ES* علاوه بر این با SecAgg آموزش می بینند.

بحث و مراحل بعدی

تجربه ما نشان می دهد که DP را می توان در عمل از طریق طراحی مشترک الگوریتم سیستم در مشارکت مشتری به دست آورد، و اینکه هم حریم خصوصی و هم سودمندی زمانی که جمعیت زیاد است می تواند قوی باشد. و تعداد زیادی از کمک های دستگاه ها جمع شده است. معاوضه محاسبات محرمانه، ابزار و محاسبات را می توان با استفاده از داده های عمومی، الگوریتم جدید MF-DP-FTRL و حسابداری سخت تر بهبود بخشید. با این تکنیک ها، تضمین DP قوی از ه ≤ 1 ممکن است اما همچنان چالش برانگیز است. تحقیق فعال در مورد حسابرسی تجربی حریم خصوصی [1, 2] نشان می دهد که مدل های DP به طور بالقوه خصوصی تر از بدترین ضمانت های DP هستند. در حالی که ما مرزهای الگوریتم‌ها را پیش می‌بریم، کدام بعد از محاسبات محرمانگی باید در اولویت قرار گیرد؟

ما فعالانه روی همه جنبه‌های حریم خصوصی ML کار می‌کنیم، از جمله گسترش DP-FTRL به DP توزیع‌شده و بهبود قابلیت بازرسی و تأیید. Trusted Execution Environment این فرصت را برای افزایش قابل ملاحظه اندازه مدل با حفظ حریم خصوصی قابل تأیید باز می کند. پیشرفت اخیر در LMهای بزرگ (LLM) ما را بر آن می دارد تا در مورد استفاده از اطلاعات عمومی در آموزش خصوصی و تعاملات آینده بیشتر بین LLMها، LMهای روی دستگاه و تولید Gboard تجدید نظر کنیم.

قدردانی

نویسندگان مایلند از پیتر کایروز، برندان مک ماهان و دانیل رامج برای بازخورد اولیه خود در مورد پست وبلاگ، شائوفنگ لی و تام اسمال برای کمک به چهره های متحرک و تیم هایی در گوگل که در طراحی الگوریتم و اجرای زیرساخت کمک کردند تشکر کنند. ، و نگهداری تولید. همکاران زیر مستقیماً به نتایج ارائه شده کمک می کنند:

تحقیق و توسعه الگوریتم: گالن اندرو، استانیسلاو چیکنواریان، کریستوفر آ. شوکت چو، آرون گانش، پیتر کایروز، رایان مک‌کنا، اچ. برندان مک ماهان، جسی روزنستاک، تیمون ون اوورولد، کیث راش، شوانگ سونگ، توماس استینکه، آبراد تاکورتا، ام تاکار، و یوانبو ژانگ.

زیرساخت، تولید و پشتیبانی رهبری: Mingqing Chen، Stefan Dierauf، Billy Dou، Hubert Eichner، Zachary Garrett، Jeremy Gillula، Jianpeng Hou، Hui Li، Xu Liu، Wenzhi Mao، Brett McLarnon، Mengchen Pei، Daniel Ramagewamy، Swaroop Ramas سان، آندریاس ترزیس، یون وانگ، شانشان وو، یو شیائو و شومین ژای.

سئو PBN | خبر های جدید سئو و هک و سرور