بهینه‌سازی گزارش خلاصه در Privacy Sandbox Attribution Reporting API – وبلاگ تحقیقاتی Google

بهینه‌سازی گزارش خلاصه در Privacy Sandbox Attribution Reporting API – وبلاگ تحقیقاتی Google

در سال‌های اخیر، طرح Privacy Sandbox برای بررسی راه‌های مسئولانه برای تبلیغ‌کنندگان برای اندازه‌گیری اثربخشی کمپین‌هایشان، با هدف از بین بردن کوکی‌های شخص ثالث (مشروط به رفع هرگونه نگرانی رقابتی با سازمان رقابت و بازار بریتانیا) راه‌اندازی شد. کوکی ها قطعات کوچکی از داده های حاوی تنظیمات برگزیده کاربر هستند که وب سایت ها در دستگاه کاربر ذخیره می کنند. می توان از آنها برای ارائه یک تجربه مرور بهتر (به عنوان مثال، امکان ورود خودکار به کاربران) و ارائه محتوا یا تبلیغات مرتبط استفاده کرد. جعبه ایمنی حریم خصوصی تلاش می‌کند با ارائه جایگزینی برای حفظ حریم خصوصی، نگرانی‌های مربوط به استفاده از کوکی‌ها برای ردیابی داده‌های مرور در سراسر وب را برطرف کند.

بسیاری از مرورگرها از حریم خصوصی متمایز (DP) برای ارائه APIهای حفظ حریم خصوصی، مانند API گزارش انتساب (ARA) استفاده می کنند که برای اندازه گیری تبدیل تبلیغات به کوکی ها متکی نیستند. ARA اقدامات فردی کاربر را رمزگذاری می‌کند و آنها را در یک گزارش خلاصه جمع‌آوری می‌کند، که اهداف اندازه‌گیری مانند تعداد و ارزش تبدیل‌ها (اقدامات مفید در یک وب‌سایت، مانند خرید یا ثبت‌نام در فهرست پستی) را که به کمپین‌های تبلیغاتی نسبت داده می‌شود، تخمین می‌زند.

وظیفه پیکربندی پارامترهای API، به عنوان مثال، تخصیص بودجه مشارکت در تبدیل‌های مختلف، برای به حداکثر رساندن سودمندی گزارش‌های خلاصه مهم است. در «بهینه‌سازی گزارش خلاصه در Privacy Sandbox Attribution Reporting API»، یک چارچوب ریاضی رسمی برای مدل‌سازی گزارش‌های خلاصه معرفی می‌کنیم. سپس، ما مشکل به حداکثر رساندن سودمندی گزارش های خلاصه را به عنوان یک مسئله بهینه سازی برای به دست آوردن پارامترهای ARA بهینه فرموله می کنیم. در نهایت، ما روش را با استفاده از مجموعه داده‌های واقعی و مصنوعی ارزیابی می‌کنیم و کاربرد قابل‌توجهی بهبود یافته را در مقایسه با گزارش‌های خلاصه غیر بهینه پایه نشان می‌دهیم.

خلاصه گزارشات آرا

از مثال زیر برای نشان دادن نماد خود استفاده می کنیم. تصور کنید یک فروشگاه هدیه خیالی به نام دو و پنک که از تبلیغات دیجیتال برای دسترسی به مشتریان خود استفاده می کند. جدول زیر فروش تعطیلات آنها را نشان می‌دهد، که در آن هر رکورد حاوی ویژگی‌های نمایش با (i) یک شناسه نمایش، (ii) کمپین، و (iii) شهری که آگهی در آن نشان داده شده است، و همچنین ویژگی‌های تبدیل با (i) است. تعداد اقلام خریداری شده و (ii) ارزش کل دلاری آن اقلام.

سیاهههای مربوط به ویژگی های قالب گیری و تبدیل برای Du & Penc.

مدل ریاضی

گزارش‌های خلاصه ARA را می‌توان با چهار الگوریتم مدل‌سازی کرد: (1) بردار مشارکت، (2) محدود کردن مشارکت، (3) گزارش‌های خلاصه، و (4) ارزش‌های بازسازی. گزارش‌های خلاصه و محدود کردن مشارکت توسط ARA انجام می‌شود، در حالی که ارزش‌های بردار مشارکت و بازسازی توسط یک ارائه‌دهنده AdTech انجام می‌شود – ابزارها و سیستم‌هایی که به کسب‌وکارها امکان خرید و فروش تبلیغات دیجیتال را می‌دهند. هدف از این کار کمک به AdTechs در بهینه‌سازی الگوریتم‌های گزارش خلاصه است.

الگوریتم Contribution Vector اندازه گیری ها را به فرمت ARA تبدیل می کند که گسسته و مقیاس بندی شده است. مقیاس‌بندی باید محدودیت مشارکت کلی در هر نمایش را در نظر بگیرد. در اینجا ما روشی را پیشنهاد می کنیم که گیره و گرد کردن تصادفی را انجام می دهد. نتیجه الگوریتم یک هیستوگرام از کلیدها و مقادیر قابل جمع است.

در مرحله بعد، الگوریتم Contribution Bounding روی دستگاه‌های مشتری اجرا می‌شود و سهم محدود شده در گزارش‌های نسبت داده شده را در جایی که مشارکت‌های بیشتر از حد مجاز حذف می‌شوند، اعمال می‌کند. خروجی یک هیستوگرام از تبدیل های نسبت داده شده است.

الگوریتم Summary Reports در سمت سرور در یک محیط اجرایی قابل اعتماد اجرا می شود و نتایج انبوه نویزدار را برمی گرداند که DP را برآورده می کند. نویز از توزیع گسسته لاپلاس نمونه برداری می شود، و برای اجرای بودجه بندی حریم خصوصی، یک گزارش ممکن است فقط یک بار مورد پرسش قرار گیرد.

در نهایت، الگوریتم Reconstruct Values ​​اندازه گیری ها را به مقیاس اصلی تبدیل می کند. ارزش‌های بازسازی و الگوریتم‌های بردار مشارکت توسط AdTech طراحی شده‌اند و هر دو بر ابزار دریافتی از گزارش خلاصه تأثیر می‌گذارند.

استفاده گویا از گزارش‌های خلاصه ARA، که شامل بردار مشارکت (الگوریتم A)، محدود کردن مشارکت (الگوریتم C)، گزارش‌های خلاصه (الگوریتم S) و ارزش‌های بازسازی (الگوریتم R) است. الگوریتم های C و S در API ثابت هستند. طراحی های AdTech A و R.

معیارهای خطا

هنگام انتخاب معیار خطا برای ارزیابی کیفیت یک تقریب، عوامل مختلفی باید در نظر گرفته شود. برای انتخاب یک متریک خاص، ویژگی‌های مطلوب یک متریک خطا را در نظر گرفتیم که می‌توان از آن به عنوان تابع هدف استفاده کرد. با در نظر گرفتن ویژگی های مورد نظر، خطای نسبی میانگین مربع ریشه کوتاه ? را انتخاب کرده ایم (RMSRE?) به عنوان معیار خطای ما برای خواص آن. برای بحث مفصل و مقایسه با سایر معیارهای ممکن به مقاله مراجعه کنید.

بهينه سازي

برای بهینه سازی ابزار اندازه گیری شده توسط RMSRE?، یک پارامتر دربندی را انتخاب می کنیم، سیو بودجه حریم خصوصی، ?، برای هر برش. ترکیب هر دو تعیین می کند که چگونه یک اندازه گیری واقعی (مانند دو تبدیل با ارزش کل 3 دلار) در سمت AdTech کدگذاری می شود و سپس برای پردازش الگوریتم Contribution Bounding به ARA ارسال می شود. RMSRE? را می توان دقیقاً محاسبه کرد، زیرا می توان آن را بر حسب بایاس ناشی از برش و واریانس توزیع نویز بیان کرد. با دنبال کردن این مراحل متوجه می شویم که RMSRE? برای یک بودجه ثابت حفظ حریم خصوصی، ?، یا یک پارامتر درپوش، C، محدب است (بنابراین می‌توان مقدار کمینه‌سازی خطا را برای پارامتر دیگر به‌طور مؤثر به‌دست آورد)، در حالی که برای متغیرهای مشترک (C, ?) غیر محدب می‌شود (بنابراین ممکن است همیشه نتوانیم آن را انتخاب کنیم. بهترین پارامترهای ممکن). در هر صورت، از هر بهینه ساز خارج از قفسه می توان برای انتخاب بودجه های حریم خصوصی و پارامترهای سقفی استفاده کرد. در آزمایش‌های خود، از مینیمینه‌کننده SLSQP از کتابخانه scipy.optimize استفاده می‌کنیم.

داده های مصنوعی

پیکربندی های مختلف ARA را می توان با آزمایش آنها بر روی یک مجموعه داده تبدیل به صورت تجربی ارزیابی کرد. با این حال، دسترسی به چنین داده‌هایی می‌تواند به دلیل نگرانی‌های مربوط به حریم خصوصی محدود یا کند باشد یا به سادگی در دسترس نباشد. یکی از راه های رفع این محدودیت ها استفاده از داده های مصنوعی است که ویژگی های داده های واقعی را تکرار می کند.

ما روشی را برای تولید داده های مصنوعی به طور مسئولانه از طریق مدل سازی آماری مجموعه داده های تبدیل دنیای واقعی ارائه می کنیم. ما ابتدا یک تجزیه و تحلیل تجربی از مجموعه داده‌های تبدیل واقعی را برای کشف ویژگی‌های مرتبط برای ARA انجام می‌دهیم. سپس خط لوله ای طراحی می کنیم که از این دانش توزیع برای ایجاد یک مجموعه داده مصنوعی واقعی استفاده می کند که می تواند از طریق پارامترهای ورودی سفارشی شود.

خط لوله ابتدا برداشت هایی را ایجاد می کند که از یک توزیع قانون قدرت (مرحله 1) گرفته شده است، سپس برای هر نمایش، تبدیل های گرفته شده از توزیع پواسون (مرحله 2) را ایجاد می کند و در نهایت، برای هر تبدیل، مقادیر تبدیل گرفته شده از یک log-normal را ایجاد می کند. توزیع (مرحله 3). با پارامترهای وابسته به مجموعه داده، متوجه می‌شویم که این توزیع‌ها دقیقاً با ویژگی‌های مجموعه داده آگهی مطابقت دارند. بنابراین، می توان پارامترها را از مجموعه داده های تاریخی یا عمومی یاد گرفت و مجموعه داده های مصنوعی را برای آزمایش تولید کرد.

مراحل تولید مجموعه داده کلی با ویژگی هایی برای تصویر.

ارزیابی تجربی

ما الگوریتم‌های خود را بر روی سه مجموعه داده واقعی (Criteo، AdTech Real Estate، و AdTech Travel) و سه مجموعه داده مصنوعی ارزیابی می‌کنیم. کریتئو شامل 15 میلیون کلیک، املاک و مستغلات از 100 هزار تبدیل و سفر شامل 30 هزار تبدیل است. هر مجموعه داده به یک مجموعه آموزشی و یک مجموعه آزمایشی تقسیم می شود. مجموعه آموزشی برای انتخاب بودجه مشارکت، پارامترهای آستانه برش و محدودیت تعداد تبدیل استفاده می‌شود (مجموعه‌های داده واقعی تنها یک تبدیل در هر کلیک دارند)، و خطا در مجموعه آزمایشی ارزیابی می‌شود. هر مجموعه داده با استفاده از ویژگی‌های impression به برش‌هایی تقسیم می‌شود. برای مجموعه داده های دنیای واقعی، ما سه پرس و جو را برای هر برش در نظر می گیریم. برای مجموعه داده های مصنوعی، ما دو پرس و جو برای هر برش در نظر می گیریم.

برای هر کوئری RMSRE را انتخاب می کنیم? مقدار ? پنج برابر مقدار میانه پرس و جو در مجموعه داده آموزشی باشد. این امر عدم تغییر معیار خطا در مقیاس مجدد داده ها را تضمین می کند و به ما امکان می دهد خطاهای ویژگی های مقیاس های مختلف را با استفاده از ? برای هر ویژگی ترکیب کنیم.

نمودارهای پراکنده از مجموعه داده های دنیای واقعی که احتمال مشاهده یک مقدار تبدیل را نشان می دهد. منحنی‌های برازش بهترین مدل‌های توزیع log-normal را نشان می‌دهند که به طور موثر الگوهای اساسی در داده‌ها را ثبت می‌کنند.

نتایج

ما الگوریتم مبتنی بر بهینه سازی خود را با یک رویکرد ساده پایه مقایسه می کنیم. برای هر پرس و جو، خط مبنا از بودجه مشارکت مساوی و یک کمیت ثابت از داده های آموزشی برای انتخاب آستانه برش استفاده می کند. الگوریتم‌های ما خطای قابل‌توجهی کمتری نسبت به خطوط پایه در مجموعه داده‌های دنیای واقعی و مصنوعی ایجاد می‌کنند. رویکرد مبتنی بر بهینه سازی ما با بودجه و داده های حریم خصوصی سازگار است.

RMSREتی برای بودجه‌های حریم خصوصی {1، 2، 4، 8، 16، 32، 64} برای الگوریتم‌ها و خطوط پایه ما در سه مجموعه داده مصنوعی و دنیای واقعی. رویکرد مبتنی بر بهینه‌سازی ما به طور مداوم نسبت به خطوط پایه که از یک کمیت ثابت برای آستانه برش استفاده می‌کنند و بودجه مشارکت را به طور مساوی بین جستارها تقسیم می‌کند، به خطای کمتری دست می‌یابد.

نتیجه

ما بهینه‌سازی گزارش‌های خلاصه را در ARA مطالعه می‌کنیم، که در حال حاضر در صدها میلیون مرورگر Chrome مستقر است. ما یک فرمول دقیق از مسئله بهینه‌سازی بودجه‌بندی مشارکت برای ARA را با هدف تجهیز محققان به یک انتزاع قوی ارائه می‌کنیم که پیشرفت‌های عملی را تسهیل می‌کند.

دستور العمل ما، که از داده‌های تاریخی برای محدود کردن و مقیاس‌بندی سهم داده‌های آینده تحت حریم خصوصی متفاوت استفاده می‌کند، کاملاً کلی است و برای تنظیمات فراتر از تبلیغات قابل استفاده است. یکی از رویکردهای مبتنی بر این کار، استفاده از داده‌های گذشته برای یادگیری پارامترهای توزیع داده، و سپس اعمال داده‌های مصنوعی مشتق‌شده از این توزیع برای بودجه‌بندی حریم خصوصی برای پرسش‌های مربوط به داده‌های آینده است. لطفاً مقاله و کد همراه را برای الگوریتم‌ها و اثبات‌های دقیق ببینید.

سپاسگزاریها

این کار با همکاری بدیع قاضی، پریتیش کمات، راوی کومار، پسین مانورنگسی و آویناش وارادراجان انجام شده است. ما از آکاش نادان برای کمکش تشکر می کنیم.