در سالهای اخیر، طرح Privacy Sandbox برای بررسی راههای مسئولانه برای تبلیغکنندگان برای اندازهگیری اثربخشی کمپینهایشان، با هدف از بین بردن کوکیهای شخص ثالث (مشروط به رفع هرگونه نگرانی رقابتی با سازمان رقابت و بازار بریتانیا) راهاندازی شد. کوکی ها قطعات کوچکی از داده های حاوی تنظیمات برگزیده کاربر هستند که وب سایت ها در دستگاه کاربر ذخیره می کنند. می توان از آنها برای ارائه یک تجربه مرور بهتر (به عنوان مثال، امکان ورود خودکار به کاربران) و ارائه محتوا یا تبلیغات مرتبط استفاده کرد. جعبه ایمنی حریم خصوصی تلاش میکند با ارائه جایگزینی برای حفظ حریم خصوصی، نگرانیهای مربوط به استفاده از کوکیها برای ردیابی دادههای مرور در سراسر وب را برطرف کند.
بسیاری از مرورگرها از حریم خصوصی متمایز (DP) برای ارائه APIهای حفظ حریم خصوصی، مانند API گزارش انتساب (ARA) استفاده می کنند که برای اندازه گیری تبدیل تبلیغات به کوکی ها متکی نیستند. ARA اقدامات فردی کاربر را رمزگذاری میکند و آنها را در یک گزارش خلاصه جمعآوری میکند، که اهداف اندازهگیری مانند تعداد و ارزش تبدیلها (اقدامات مفید در یک وبسایت، مانند خرید یا ثبتنام در فهرست پستی) را که به کمپینهای تبلیغاتی نسبت داده میشود، تخمین میزند.
وظیفه پیکربندی پارامترهای API، به عنوان مثال، تخصیص بودجه مشارکت در تبدیلهای مختلف، برای به حداکثر رساندن سودمندی گزارشهای خلاصه مهم است. در «بهینهسازی گزارش خلاصه در Privacy Sandbox Attribution Reporting API»، یک چارچوب ریاضی رسمی برای مدلسازی گزارشهای خلاصه معرفی میکنیم. سپس، ما مشکل به حداکثر رساندن سودمندی گزارش های خلاصه را به عنوان یک مسئله بهینه سازی برای به دست آوردن پارامترهای ARA بهینه فرموله می کنیم. در نهایت، ما روش را با استفاده از مجموعه دادههای واقعی و مصنوعی ارزیابی میکنیم و کاربرد قابلتوجهی بهبود یافته را در مقایسه با گزارشهای خلاصه غیر بهینه پایه نشان میدهیم.
خلاصه گزارشات آرا
از مثال زیر برای نشان دادن نماد خود استفاده می کنیم. تصور کنید یک فروشگاه هدیه خیالی به نام دو و پنک که از تبلیغات دیجیتال برای دسترسی به مشتریان خود استفاده می کند. جدول زیر فروش تعطیلات آنها را نشان میدهد، که در آن هر رکورد حاوی ویژگیهای نمایش با (i) یک شناسه نمایش، (ii) کمپین، و (iii) شهری که آگهی در آن نشان داده شده است، و همچنین ویژگیهای تبدیل با (i) است. تعداد اقلام خریداری شده و (ii) ارزش کل دلاری آن اقلام.
سیاهههای مربوط به ویژگی های قالب گیری و تبدیل برای Du & Penc. |
مدل ریاضی
گزارشهای خلاصه ARA را میتوان با چهار الگوریتم مدلسازی کرد: (1) بردار مشارکت، (2) محدود کردن مشارکت، (3) گزارشهای خلاصه، و (4) ارزشهای بازسازی. گزارشهای خلاصه و محدود کردن مشارکت توسط ARA انجام میشود، در حالی که ارزشهای بردار مشارکت و بازسازی توسط یک ارائهدهنده AdTech انجام میشود – ابزارها و سیستمهایی که به کسبوکارها امکان خرید و فروش تبلیغات دیجیتال را میدهند. هدف از این کار کمک به AdTechs در بهینهسازی الگوریتمهای گزارش خلاصه است.
الگوریتم Contribution Vector اندازه گیری ها را به فرمت ARA تبدیل می کند که گسسته و مقیاس بندی شده است. مقیاسبندی باید محدودیت مشارکت کلی در هر نمایش را در نظر بگیرد. در اینجا ما روشی را پیشنهاد می کنیم که گیره و گرد کردن تصادفی را انجام می دهد. نتیجه الگوریتم یک هیستوگرام از کلیدها و مقادیر قابل جمع است.
در مرحله بعد، الگوریتم Contribution Bounding روی دستگاههای مشتری اجرا میشود و سهم محدود شده در گزارشهای نسبت داده شده را در جایی که مشارکتهای بیشتر از حد مجاز حذف میشوند، اعمال میکند. خروجی یک هیستوگرام از تبدیل های نسبت داده شده است.
الگوریتم Summary Reports در سمت سرور در یک محیط اجرایی قابل اعتماد اجرا می شود و نتایج انبوه نویزدار را برمی گرداند که DP را برآورده می کند. نویز از توزیع گسسته لاپلاس نمونه برداری می شود، و برای اجرای بودجه بندی حریم خصوصی، یک گزارش ممکن است فقط یک بار مورد پرسش قرار گیرد.
در نهایت، الگوریتم Reconstruct Values اندازه گیری ها را به مقیاس اصلی تبدیل می کند. ارزشهای بازسازی و الگوریتمهای بردار مشارکت توسط AdTech طراحی شدهاند و هر دو بر ابزار دریافتی از گزارش خلاصه تأثیر میگذارند.
استفاده گویا از گزارشهای خلاصه ARA، که شامل بردار مشارکت (الگوریتم A)، محدود کردن مشارکت (الگوریتم C)، گزارشهای خلاصه (الگوریتم S) و ارزشهای بازسازی (الگوریتم R) است. الگوریتم های C و S در API ثابت هستند. طراحی های AdTech A و R. |
معیارهای خطا
هنگام انتخاب معیار خطا برای ارزیابی کیفیت یک تقریب، عوامل مختلفی باید در نظر گرفته شود. برای انتخاب یک متریک خاص، ویژگیهای مطلوب یک متریک خطا را در نظر گرفتیم که میتوان از آن به عنوان تابع هدف استفاده کرد. با در نظر گرفتن ویژگی های مورد نظر، خطای نسبی میانگین مربع ریشه کوتاه ? را انتخاب کرده ایم (RMSRE?) به عنوان معیار خطای ما برای خواص آن. برای بحث مفصل و مقایسه با سایر معیارهای ممکن به مقاله مراجعه کنید.
بهينه سازي
برای بهینه سازی ابزار اندازه گیری شده توسط RMSRE?، یک پارامتر دربندی را انتخاب می کنیم، سیو بودجه حریم خصوصی، ?، برای هر برش. ترکیب هر دو تعیین می کند که چگونه یک اندازه گیری واقعی (مانند دو تبدیل با ارزش کل 3 دلار) در سمت AdTech کدگذاری می شود و سپس برای پردازش الگوریتم Contribution Bounding به ARA ارسال می شود. RMSRE? را می توان دقیقاً محاسبه کرد، زیرا می توان آن را بر حسب بایاس ناشی از برش و واریانس توزیع نویز بیان کرد. با دنبال کردن این مراحل متوجه می شویم که RMSRE? برای یک بودجه ثابت حفظ حریم خصوصی، ?، یا یک پارامتر درپوش، C، محدب است (بنابراین میتوان مقدار کمینهسازی خطا را برای پارامتر دیگر بهطور مؤثر بهدست آورد)، در حالی که برای متغیرهای مشترک (C, ?) غیر محدب میشود (بنابراین ممکن است همیشه نتوانیم آن را انتخاب کنیم. بهترین پارامترهای ممکن). در هر صورت، از هر بهینه ساز خارج از قفسه می توان برای انتخاب بودجه های حریم خصوصی و پارامترهای سقفی استفاده کرد. در آزمایشهای خود، از مینیمینهکننده SLSQP از کتابخانه scipy.optimize استفاده میکنیم.
داده های مصنوعی
پیکربندی های مختلف ARA را می توان با آزمایش آنها بر روی یک مجموعه داده تبدیل به صورت تجربی ارزیابی کرد. با این حال، دسترسی به چنین دادههایی میتواند به دلیل نگرانیهای مربوط به حریم خصوصی محدود یا کند باشد یا به سادگی در دسترس نباشد. یکی از راه های رفع این محدودیت ها استفاده از داده های مصنوعی است که ویژگی های داده های واقعی را تکرار می کند.
ما روشی را برای تولید داده های مصنوعی به طور مسئولانه از طریق مدل سازی آماری مجموعه داده های تبدیل دنیای واقعی ارائه می کنیم. ما ابتدا یک تجزیه و تحلیل تجربی از مجموعه دادههای تبدیل واقعی را برای کشف ویژگیهای مرتبط برای ARA انجام میدهیم. سپس خط لوله ای طراحی می کنیم که از این دانش توزیع برای ایجاد یک مجموعه داده مصنوعی واقعی استفاده می کند که می تواند از طریق پارامترهای ورودی سفارشی شود.
خط لوله ابتدا برداشت هایی را ایجاد می کند که از یک توزیع قانون قدرت (مرحله 1) گرفته شده است، سپس برای هر نمایش، تبدیل های گرفته شده از توزیع پواسون (مرحله 2) را ایجاد می کند و در نهایت، برای هر تبدیل، مقادیر تبدیل گرفته شده از یک log-normal را ایجاد می کند. توزیع (مرحله 3). با پارامترهای وابسته به مجموعه داده، متوجه میشویم که این توزیعها دقیقاً با ویژگیهای مجموعه داده آگهی مطابقت دارند. بنابراین، می توان پارامترها را از مجموعه داده های تاریخی یا عمومی یاد گرفت و مجموعه داده های مصنوعی را برای آزمایش تولید کرد.
مراحل تولید مجموعه داده کلی با ویژگی هایی برای تصویر. |
ارزیابی تجربی
ما الگوریتمهای خود را بر روی سه مجموعه داده واقعی (Criteo، AdTech Real Estate، و AdTech Travel) و سه مجموعه داده مصنوعی ارزیابی میکنیم. کریتئو شامل 15 میلیون کلیک، املاک و مستغلات از 100 هزار تبدیل و سفر شامل 30 هزار تبدیل است. هر مجموعه داده به یک مجموعه آموزشی و یک مجموعه آزمایشی تقسیم می شود. مجموعه آموزشی برای انتخاب بودجه مشارکت، پارامترهای آستانه برش و محدودیت تعداد تبدیل استفاده میشود (مجموعههای داده واقعی تنها یک تبدیل در هر کلیک دارند)، و خطا در مجموعه آزمایشی ارزیابی میشود. هر مجموعه داده با استفاده از ویژگیهای impression به برشهایی تقسیم میشود. برای مجموعه داده های دنیای واقعی، ما سه پرس و جو را برای هر برش در نظر می گیریم. برای مجموعه داده های مصنوعی، ما دو پرس و جو برای هر برش در نظر می گیریم.
برای هر کوئری RMSRE را انتخاب می کنیم? مقدار ? پنج برابر مقدار میانه پرس و جو در مجموعه داده آموزشی باشد. این امر عدم تغییر معیار خطا در مقیاس مجدد داده ها را تضمین می کند و به ما امکان می دهد خطاهای ویژگی های مقیاس های مختلف را با استفاده از ? برای هر ویژگی ترکیب کنیم.
نمودارهای پراکنده از مجموعه داده های دنیای واقعی که احتمال مشاهده یک مقدار تبدیل را نشان می دهد. منحنیهای برازش بهترین مدلهای توزیع log-normal را نشان میدهند که به طور موثر الگوهای اساسی در دادهها را ثبت میکنند. |
نتایج
ما الگوریتم مبتنی بر بهینه سازی خود را با یک رویکرد ساده پایه مقایسه می کنیم. برای هر پرس و جو، خط مبنا از بودجه مشارکت مساوی و یک کمیت ثابت از داده های آموزشی برای انتخاب آستانه برش استفاده می کند. الگوریتمهای ما خطای قابلتوجهی کمتری نسبت به خطوط پایه در مجموعه دادههای دنیای واقعی و مصنوعی ایجاد میکنند. رویکرد مبتنی بر بهینه سازی ما با بودجه و داده های حریم خصوصی سازگار است.
RMSREتی برای بودجههای حریم خصوصی {1، 2، 4، 8، 16، 32، 64} برای الگوریتمها و خطوط پایه ما در سه مجموعه داده مصنوعی و دنیای واقعی. رویکرد مبتنی بر بهینهسازی ما به طور مداوم نسبت به خطوط پایه که از یک کمیت ثابت برای آستانه برش استفاده میکنند و بودجه مشارکت را به طور مساوی بین جستارها تقسیم میکند، به خطای کمتری دست مییابد. |
نتیجه
ما بهینهسازی گزارشهای خلاصه را در ARA مطالعه میکنیم، که در حال حاضر در صدها میلیون مرورگر Chrome مستقر است. ما یک فرمول دقیق از مسئله بهینهسازی بودجهبندی مشارکت برای ARA را با هدف تجهیز محققان به یک انتزاع قوی ارائه میکنیم که پیشرفتهای عملی را تسهیل میکند.
دستور العمل ما، که از دادههای تاریخی برای محدود کردن و مقیاسبندی سهم دادههای آینده تحت حریم خصوصی متفاوت استفاده میکند، کاملاً کلی است و برای تنظیمات فراتر از تبلیغات قابل استفاده است. یکی از رویکردهای مبتنی بر این کار، استفاده از دادههای گذشته برای یادگیری پارامترهای توزیع داده، و سپس اعمال دادههای مصنوعی مشتقشده از این توزیع برای بودجهبندی حریم خصوصی برای پرسشهای مربوط به دادههای آینده است. لطفاً مقاله و کد همراه را برای الگوریتمها و اثباتهای دقیق ببینید.
سپاسگزاریها
این کار با همکاری بدیع قاضی، پریتیش کمات، راوی کومار، پسین مانورنگسی و آویناش وارادراجان انجام شده است. ما از آکاش نادان برای کمکش تشکر می کنیم.