تخصیص آنلاین قوی با فرود آینه دوگانه

ظهور فناوری های دیجیتال تصمیم گیری را در بخش های تجاری مانند خطوط هوایی، خرده فروشی آنلاین و تبلیغات اینترنتی تغییر داده است. امروزه، تصمیمات بلادرنگ باید به طور مکرر در محیط های بسیار نامطمئن و به سرعت در حال تغییر اتخاذ شوند. علاوه بر این، سازمان ها معمولاً منابع محدودی دارند که باید به طور مؤثر در بین تصمیمات تخصیص داده شوند. از این قبیل مشکلات به عنوان مشکلات تخصیص آنلاین با محدودیت منابع، و برنامه های کاربردی فراوان است. برخی از نمونه ها عبارتند از:

  • مناقصه با محدودیت های بودجه: تبلیغ‌کنندگان به‌طور فزاینده‌ای جایگاه‌های تبلیغاتی را با استفاده از بازارهای مبتنی بر حراج مانند موتورهای جستجو و مبادلات تبلیغاتی خریداری می‌کنند. یک تبلیغ کننده معمولی می تواند در یک ماه معین در تعداد زیادی حراج شرکت کند. از آنجایی که عرضه در این بازارها نامشخص است، تبلیغ‌کنندگان بودجه‌ای را برای کنترل کل هزینه‌های خود تعیین می‌کنند. بنابراین، تبلیغ‌کنندگان باید تعیین کنند که چگونه قیمت‌ها را به‌طور بهینه قرار دهند و در عین حال هزینه کل را محدود کرده و تبدیل‌ها را به حداکثر برسانند.
  • تخصیص تبلیغات پویا: ناشران می‌توانند با امضای قراردادهایی با آگهی‌دهندگانی که تعداد بازدیدکنندگانی را تضمین می‌کنند یا با حراج در بازار آزاد، از وب‌سایت‌های خود درآمد کسب کنند. برای انجام این انتخاب، ناشران باید درآمد کوتاه‌مدت فروش اسلات‌ها در بازار آزاد و مزایای بلندمدت ارائه مکان‌های با کیفیت خوب به آگهی‌های رزرواسیون را در زمان واقعی، معاوضه کنند.
  • مدیریت درآمد خطوط هوایی: هواپیماها تعداد محدودی صندلی دارند که باید تا حد امکان قبل از حرکت پرواز پر شوند. اما تقاضا برای پروازها در طول زمان تغییر می کند و شرکت های هواپیمایی مایلند بلیط هواپیما را به مشتریانی که مایل به پرداخت بیشتر هستند بفروشند. بنابراین، خطوط هوایی به طور فزاینده‌ای سیستم‌های خودکار پیچیده‌ای را برای مدیریت قیمت‌گذاری و در دسترس بودن بلیط‌های هواپیمایی اتخاذ کرده‌اند.
  • خرده فروشی شخصی با موجودی های محدود: خرده فروشان آنلاین می توانند از داده های بلادرنگ برای شخصی سازی پیشنهادات خود به مشتریانی که از فروشگاه آنها بازدید می کنند استفاده کنند. از آنجایی که موجودی محصول محدود است و نمی‌توان آن را به راحتی دوباره پر کرد، خرده‌فروشان باید به صورت پویا تصمیم بگیرند که کدام محصولات را ارائه دهند و با چه قیمتی درآمد خود را به حداکثر برسانند و در عین حال محدودیت‌های موجودی خود را برآورده کنند.

ویژگی مشترک این مشکلات وجود محدودیت منابع (بودجه، تعهدات قراردادی، صندلی یا موجودی به ترتیب در مثال های بالا) و نیاز به تصمیم گیری پویا در محیط های با عدم قطعیت است. محدودیت‌های منابع چالش برانگیز هستند، زیرا آنها تصمیم‌ها را در طول زمان به هم مرتبط می‌کنند – به عنوان مثال، در مشکل مناقصه، پیشنهاد خیلی زودهنگام می‌تواند باعث بی‌هزینه‌ای برای تبلیغ‌کنندگان شود و در نتیجه فرصت‌هایی را دیرتر از دست بدهند. برعکس، پیشنهاد بیش از حد محافظه کارانه می تواند منجر به تعداد کم تبدیل یا کلیک شود.

دو مشکل تخصیص منابع مرکزی که تبلیغ‌کنندگان و ناشران در بازارهای تبلیغات اینترنتی با آن مواجه هستند.

در این پست، الگوریتم‌های پیشرفته‌ای را مورد بحث قرار می‌دهیم که می‌توانند به به حداکثر رساندن اهداف در محیط‌های پویا و محدود به منابع کمک کنند. به طور خاص، ما اخیراً کلاس جدیدی از الگوریتم‌ها را برای مسائل تخصیص آنلاین ایجاد کرده‌ایم که به آن می‌گویند فرود آینه دوتایی، که ساده، قوی و انعطاف پذیر هستند. مقالات ما در تحقیقات عملیات، ICML’20 و ICML’21 ظاهر شده اند و ما کار مداومی برای ادامه پیشرفت در این فضا داریم. در مقایسه با رویکردهای موجود، فرود آینه دوگانه سریع‌تر است، زیرا نیازی به حل مسائل بهینه‌سازی کمکی ندارد، انعطاف‌پذیرتر است زیرا می‌تواند بسیاری از برنامه‌ها را در بخش‌های مختلف با حداقل تغییرات مدیریت کند، و قوی‌تر است زیرا از عملکرد قابل‌توجهی در محیط‌های مختلف برخوردار است.

مشکلات تخصیص آنلاین
در یک مشکل تخصیص آنلاین، یک تصمیم گیرنده دارای مقدار محدودی از کل منابع (ب) و در طول زمان تعداد معینی درخواست را دریافت می کند (تی). در هر مقطع زمانی (تی، تصمیم گیرنده تابع پاداش دریافت می کند (fتی) و تابع مصرف منابع (بتی، و اقدامی انجام می دهد (ایکستی). توابع پاداش و مصرف منابع در طول زمان تغییر می کنند و هدف به حداکثر رساندن پاداش کل در محدودیت های منبع است. اگر همه درخواست ها بود از قبل شناخته شده است، سپس یک بهینه تخصیص را می توان با حل یک به دست آورد آفلاین مشکل بهینه سازی برای چگونگی به حداکثر رساندن تابع پاداش در طول زمان در محدودیت های منابع1.

بهینه آفلاین تخصیص را نمی توان در عمل پیاده سازی کرد زیرا نیاز به دانستن درخواست های آینده دارد. با این حال، این هنوز برای چارچوب بندی هدف مفید است برخط مسائل تخصیص: برای طراحی الگوریتمی که عملکرد آن تا حد امکان به بهینه نزدیک باشد بدون دانستن درخواست های آینده

دستیابی به بهترین دنیاها با فرود آینه دوگانه
یک ایده ساده و در عین حال قدرتمند برای رسیدگی به محدودیت‌های منابع، معرفی «قیمت‌ها» برای منابع است که امکان محاسبه هزینه فرصت مصرف منابع را هنگام تصمیم‌گیری فراهم می‌کند. به عنوان مثال، فروش یک صندلی در هواپیما امروز به این معنی است که فردا نمی توان آن را فروخت. این قیمت ها به عنوان یک سیستم حسابداری داخلی الگوریتم مفید هستند. آنها هدف هماهنگ کردن تصمیمات را در لحظات مختلف در زمان خدمت می‌کنند و اجازه می‌دهند یک مسئله پیچیده با محدودیت‌های منابع را به مسائل فرعی ساده‌تر تجزیه کنند: یکی در هر دوره زمانی بدون محدودیت منابع. به عنوان مثال، در یک مشکل مناقصه، قیمت‌ها هزینه فرصت تبلیغ‌کننده برای مصرف یک واحد بودجه را در بر می‌گیرد و به تبلیغ‌کننده اجازه می‌دهد تا هر مزایده را به‌عنوان یک مشکل پیشنهادی مستقل مدیریت کند.

این مسئله تخصیص آنلاین را به عنوان یک مشکل قیمت‌گذاری منابع برای امکان تصمیم‌گیری بهینه بازنگری می‌کند. نوآوری کلیدی الگوریتم ما استفاده از یادگیری ماشینی برای پیش‌بینی قیمت‌های بهینه به صورت آنلاین است: ما قیمت‌ها را به صورت پویا با استفاده از آن انتخاب می‌کنیم. فرود آینه، یک الگوریتم بهینه سازی محبوب برای آموزش مدل های پیش بینی یادگیری ماشین. از آنجایی که قیمت منابع در زمینه بهینه سازی به عنوان “متغیرهای دوگانه” نامیده می شود، الگوریتم حاصل را نزول آینه دوگانه می نامیم.

الگوریتم با فرض بهینه بودن مصرف یکنواخت منابع در طول زمان و به روز رسانی متغیرهای دوگانه پس از هر اقدام، به صورت متوالی کار می کند. در یک لحظه از زمان شروع می شود (تی) با انجام یک اقدام (ایکستی) که پاداش منهای هزینه فرصت مصرف منابع را به حداکثر می رساند (در کادر خاکستری بالای زیر نشان داده شده است). اگر منابع کافی در دسترس باشد، این اقدام (مثلاً چقدر پیشنهاد داده شود یا کدام تبلیغ نمایش داده شود) اجرا می شود. سپس، الگوریتم خطا در مصرف منابع را محاسبه می کند (gتی) که تفاوت بین مصرف یکنواخت در طول زمان و مصرف واقعی منابع (زیر در کادر خاکستری سوم) است. یک متغیر دوگانه جدید برای دوره زمانی بعدی با استفاده از فرود آینه ای بر اساس خطا محاسبه می شود، که سپس اقدام بعدی را اطلاع می دهد. فرود آینه ای به دنبال این است که خطا را تا حد ممکن نزدیک به صفر کند، و دقت تخمین خود را از متغیر دوگانه بهبود بخشد، به طوری که منابع در طول زمان به طور یکنواخت مصرف شوند. در حالی که فرض مصرف یکنواخت منابع ممکن است تعجب آور باشد، به جلوگیری از از دست دادن فرصت های خوب کمک می کند و اغلب با اهداف تجاری همسو می شود بنابراین موثر است. تبار آینه همچنین اجازه می دهد تا انواع قوانین به روز رسانی را فراهم کند. جزئیات بیشتر در مقاله موجود است.

مروری بر الگوریتم فرود آینه دوگانه.

با طراحی، فرود آینه دوگانه دارای ویژگی خود اصلاحی است که از تخلیه زودهنگام منابع یا انتظار طولانی برای مصرف منابع و از دست دادن فرصت های خوب جلوگیری می کند. هنگامی که یک درخواست منابع کمتر یا بیشتر از هدف مصرف می کند، متغیر دوگانه مربوطه افزایش یا کاهش می یابد. هنگامی که منابع قیمت بالاتر یا پایین‌تری دارند، اقدامات آتی برای مصرف محافظه‌کارانه یا تهاجمی‌تر منابع انتخاب می‌شوند.

پیاده سازی این الگوریتم آسان، سریع است و در محیط های مختلف از عملکرد قابل توجهی برخوردار است. اینها برخی از ویژگی های برجسته الگوریتم ما هستند:

  • روش های موجود مستلزم حل دوره ای مسائل بهینه سازی کمکی بزرگ با استفاده از داده های گذشته است. در مقابل، این الگوریتم نیازی به حل مشکل بهینه سازی کمکی ندارد و یک قانون بسیار ساده برای به روز رسانی متغیرهای دوگانه دارد که در بسیاری از موارد می توان آن را در پیچیدگی زمانی خطی اجرا کرد. بنابراین، برای بسیاری از برنامه های کاربردی بلادرنگ که نیاز به تصمیم گیری سریع دارند، جذاب است.
  • حداقل الزامات در مورد ساختار مشکل وجود دارد. چنین انعطاف‌پذیری باعث می‌شود که نزول آینه‌ای دوتایی بتواند بسیاری از برنامه‌ها را در بخش‌های مختلف با حداقل تغییرات انجام دهد. علاوه بر این، الگوریتم‌های ما انعطاف‌پذیر هستند زیرا اهداف، محدودیت‌ها یا تنظیم‌کننده‌های مختلفی را در خود جای می‌دهند. تصمیم گیرندگان با ترکیب تنظیم کننده ها می توانند اهداف مهمی فراتر از کارایی اقتصادی، مانند انصاف را شامل شوند.
  • الگوریتم‌های موجود برای مشکلات تخصیص آنلاین برای داده‌های ورودی متخاصم یا تصادفی تنظیم شده‌اند. الگوریتم‌های ورودی‌های متخاصم قوی هستند زیرا تقریباً هیچ فرضی در مورد ساختار داده‌ها نمی‌کنند، اما به نوبه خود تضمین‌های عملکردی را به دست می‌آورند که در عمل بسیار بدبینانه هستند. از سوی دیگر، الگوریتم‌های ورودی تصادفی با بهره‌برداری از الگوهای آماری در داده‌ها از ضمانت‌های عملکرد بهتری برخوردار می‌شوند، اما زمانی که مدل به درستی مشخص نشده باشد، عملکرد ضعیفی دارند. با این حال، نزول آینه دوگانه، عملکرد نزدیک به بهینه را در هر دو مدل ورودی تصادفی و خصمانه به دست می‌آورد در حالی که از ساختار مدل ورودی غافل است. در مقایسه با کار موجود روی الگوریتم‌های تقریب همزمان، روش ما کلی‌تر است، برای طیف وسیعی از مسائل کاربرد دارد و نیازی به پیش‌بینی ندارد. در زیر مقایسه ای از الگوریتم ما با سایر روش های پیشرفته ارائه شده است. نتایج بر اساس داده های مصنوعی برای یک مشکل تخصیص آگهی است.
عملکرد نزول آینه دوگانه، یک روش مبتنی بر آموزش، و یک روش خصمانه نسبت به راه حل آفلاین بهینه. مقادیر پایین تر نشان دهنده عملکرد نزدیک تر به تخصیص بهینه آفلاین است. نتایج با استفاده از آزمایش‌های مصنوعی بر اساس داده‌های عمومی برای یک مشکل تخصیص آگهی تولید می‌شوند.

نتیجه
در این پست، الگوریتمی برای مشکلات تخصیص آنلاین که ساده، قوی و منعطف است را معرفی کردیم. به ویژه قابل توجه است که پس از یک خط طولانی کار در الگوریتم های تخصیص آنلاین، فرود آینه دوگانه راهی برای تجزیه و تحلیل طیف وسیع تری از الگوریتم ها با اولویت های استحکام برتر در مقایسه با تکنیک های قبلی ارائه می دهد. Dual Mirror descent طیف وسیعی از کاربردها در چندین بخش تجاری دارد و در طول زمان در Google برای کمک به تبلیغ‌کنندگان برای کسب ارزش بیشتر از طریق تصمیم‌گیری الگوریتمی بهتر استفاده شده است. ما همچنین در حال بررسی کارهای بیشتر مربوط به فرود آینه و اتصالات آن به کنترل‌کننده‌های PI هستیم.

سپاسگزاریها
مایلیم از نویسندگان همکارمان هایهائو لو و بالو سیوان و کشیرا باوالکار برای حمایت و مشارکت استثنایی‌شان تشکر کنیم. همچنین مایلیم از همکاران خود در تیم کیفیت تبلیغات و تحقیقات الگوریتم بازار تشکر کنیم.


1در معادله زیر رسمیت یافته است: