ظهور فناوری های دیجیتال تصمیم گیری را در بخش های تجاری مانند خطوط هوایی، خرده فروشی آنلاین و تبلیغات اینترنتی تغییر داده است. امروزه، تصمیمات بلادرنگ باید به طور مکرر در محیط های بسیار نامطمئن و به سرعت در حال تغییر اتخاذ شوند. علاوه بر این، سازمان ها معمولاً منابع محدودی دارند که باید به طور مؤثر در بین تصمیمات تخصیص داده شوند. از این قبیل مشکلات به عنوان مشکلات تخصیص آنلاین با محدودیت منابع، و برنامه های کاربردی فراوان است. برخی از نمونه ها عبارتند از:
- مناقصه با محدودیت های بودجه: تبلیغکنندگان بهطور فزایندهای جایگاههای تبلیغاتی را با استفاده از بازارهای مبتنی بر حراج مانند موتورهای جستجو و مبادلات تبلیغاتی خریداری میکنند. یک تبلیغ کننده معمولی می تواند در یک ماه معین در تعداد زیادی حراج شرکت کند. از آنجایی که عرضه در این بازارها نامشخص است، تبلیغکنندگان بودجهای را برای کنترل کل هزینههای خود تعیین میکنند. بنابراین، تبلیغکنندگان باید تعیین کنند که چگونه قیمتها را بهطور بهینه قرار دهند و در عین حال هزینه کل را محدود کرده و تبدیلها را به حداکثر برسانند.
- تخصیص تبلیغات پویا: ناشران میتوانند با امضای قراردادهایی با آگهیدهندگانی که تعداد بازدیدکنندگانی را تضمین میکنند یا با حراج در بازار آزاد، از وبسایتهای خود درآمد کسب کنند. برای انجام این انتخاب، ناشران باید درآمد کوتاهمدت فروش اسلاتها در بازار آزاد و مزایای بلندمدت ارائه مکانهای با کیفیت خوب به آگهیهای رزرواسیون را در زمان واقعی، معاوضه کنند.
- مدیریت درآمد خطوط هوایی: هواپیماها تعداد محدودی صندلی دارند که باید تا حد امکان قبل از حرکت پرواز پر شوند. اما تقاضا برای پروازها در طول زمان تغییر می کند و شرکت های هواپیمایی مایلند بلیط هواپیما را به مشتریانی که مایل به پرداخت بیشتر هستند بفروشند. بنابراین، خطوط هوایی به طور فزایندهای سیستمهای خودکار پیچیدهای را برای مدیریت قیمتگذاری و در دسترس بودن بلیطهای هواپیمایی اتخاذ کردهاند.
- خرده فروشی شخصی با موجودی های محدود: خرده فروشان آنلاین می توانند از داده های بلادرنگ برای شخصی سازی پیشنهادات خود به مشتریانی که از فروشگاه آنها بازدید می کنند استفاده کنند. از آنجایی که موجودی محصول محدود است و نمیتوان آن را به راحتی دوباره پر کرد، خردهفروشان باید به صورت پویا تصمیم بگیرند که کدام محصولات را ارائه دهند و با چه قیمتی درآمد خود را به حداکثر برسانند و در عین حال محدودیتهای موجودی خود را برآورده کنند.
ویژگی مشترک این مشکلات وجود محدودیت منابع (بودجه، تعهدات قراردادی، صندلی یا موجودی به ترتیب در مثال های بالا) و نیاز به تصمیم گیری پویا در محیط های با عدم قطعیت است. محدودیتهای منابع چالش برانگیز هستند، زیرا آنها تصمیمها را در طول زمان به هم مرتبط میکنند – به عنوان مثال، در مشکل مناقصه، پیشنهاد خیلی زودهنگام میتواند باعث بیهزینهای برای تبلیغکنندگان شود و در نتیجه فرصتهایی را دیرتر از دست بدهند. برعکس، پیشنهاد بیش از حد محافظه کارانه می تواند منجر به تعداد کم تبدیل یا کلیک شود.
دو مشکل تخصیص منابع مرکزی که تبلیغکنندگان و ناشران در بازارهای تبلیغات اینترنتی با آن مواجه هستند. |
در این پست، الگوریتمهای پیشرفتهای را مورد بحث قرار میدهیم که میتوانند به به حداکثر رساندن اهداف در محیطهای پویا و محدود به منابع کمک کنند. به طور خاص، ما اخیراً کلاس جدیدی از الگوریتمها را برای مسائل تخصیص آنلاین ایجاد کردهایم که به آن میگویند فرود آینه دوتایی، که ساده، قوی و انعطاف پذیر هستند. مقالات ما در تحقیقات عملیات، ICML’20 و ICML’21 ظاهر شده اند و ما کار مداومی برای ادامه پیشرفت در این فضا داریم. در مقایسه با رویکردهای موجود، فرود آینه دوگانه سریعتر است، زیرا نیازی به حل مسائل بهینهسازی کمکی ندارد، انعطافپذیرتر است زیرا میتواند بسیاری از برنامهها را در بخشهای مختلف با حداقل تغییرات مدیریت کند، و قویتر است زیرا از عملکرد قابلتوجهی در محیطهای مختلف برخوردار است.
مشکلات تخصیص آنلاین
در یک مشکل تخصیص آنلاین، یک تصمیم گیرنده دارای مقدار محدودی از کل منابع (ب) و در طول زمان تعداد معینی درخواست را دریافت می کند (تی). در هر مقطع زمانی (تی، تصمیم گیرنده تابع پاداش دریافت می کند (fتی) و تابع مصرف منابع (بتی، و اقدامی انجام می دهد (ایکستی). توابع پاداش و مصرف منابع در طول زمان تغییر می کنند و هدف به حداکثر رساندن پاداش کل در محدودیت های منبع است. اگر همه درخواست ها بود از قبل شناخته شده است، سپس یک بهینه تخصیص را می توان با حل یک به دست آورد آفلاین مشکل بهینه سازی برای چگونگی به حداکثر رساندن تابع پاداش در طول زمان در محدودیت های منابع1.
بهینه آفلاین تخصیص را نمی توان در عمل پیاده سازی کرد زیرا نیاز به دانستن درخواست های آینده دارد. با این حال، این هنوز برای چارچوب بندی هدف مفید است برخط مسائل تخصیص: برای طراحی الگوریتمی که عملکرد آن تا حد امکان به بهینه نزدیک باشد بدون دانستن درخواست های آینده
دستیابی به بهترین دنیاها با فرود آینه دوگانه
یک ایده ساده و در عین حال قدرتمند برای رسیدگی به محدودیتهای منابع، معرفی «قیمتها» برای منابع است که امکان محاسبه هزینه فرصت مصرف منابع را هنگام تصمیمگیری فراهم میکند. به عنوان مثال، فروش یک صندلی در هواپیما امروز به این معنی است که فردا نمی توان آن را فروخت. این قیمت ها به عنوان یک سیستم حسابداری داخلی الگوریتم مفید هستند. آنها هدف هماهنگ کردن تصمیمات را در لحظات مختلف در زمان خدمت میکنند و اجازه میدهند یک مسئله پیچیده با محدودیتهای منابع را به مسائل فرعی سادهتر تجزیه کنند: یکی در هر دوره زمانی بدون محدودیت منابع. به عنوان مثال، در یک مشکل مناقصه، قیمتها هزینه فرصت تبلیغکننده برای مصرف یک واحد بودجه را در بر میگیرد و به تبلیغکننده اجازه میدهد تا هر مزایده را بهعنوان یک مشکل پیشنهادی مستقل مدیریت کند.
این مسئله تخصیص آنلاین را به عنوان یک مشکل قیمتگذاری منابع برای امکان تصمیمگیری بهینه بازنگری میکند. نوآوری کلیدی الگوریتم ما استفاده از یادگیری ماشینی برای پیشبینی قیمتهای بهینه به صورت آنلاین است: ما قیمتها را به صورت پویا با استفاده از آن انتخاب میکنیم. فرود آینه، یک الگوریتم بهینه سازی محبوب برای آموزش مدل های پیش بینی یادگیری ماشین. از آنجایی که قیمت منابع در زمینه بهینه سازی به عنوان “متغیرهای دوگانه” نامیده می شود، الگوریتم حاصل را نزول آینه دوگانه می نامیم.
الگوریتم با فرض بهینه بودن مصرف یکنواخت منابع در طول زمان و به روز رسانی متغیرهای دوگانه پس از هر اقدام، به صورت متوالی کار می کند. در یک لحظه از زمان شروع می شود (تی) با انجام یک اقدام (ایکستی) که پاداش منهای هزینه فرصت مصرف منابع را به حداکثر می رساند (در کادر خاکستری بالای زیر نشان داده شده است). اگر منابع کافی در دسترس باشد، این اقدام (مثلاً چقدر پیشنهاد داده شود یا کدام تبلیغ نمایش داده شود) اجرا می شود. سپس، الگوریتم خطا در مصرف منابع را محاسبه می کند (gتی) که تفاوت بین مصرف یکنواخت در طول زمان و مصرف واقعی منابع (زیر در کادر خاکستری سوم) است. یک متغیر دوگانه جدید برای دوره زمانی بعدی با استفاده از فرود آینه ای بر اساس خطا محاسبه می شود، که سپس اقدام بعدی را اطلاع می دهد. فرود آینه ای به دنبال این است که خطا را تا حد ممکن نزدیک به صفر کند، و دقت تخمین خود را از متغیر دوگانه بهبود بخشد، به طوری که منابع در طول زمان به طور یکنواخت مصرف شوند. در حالی که فرض مصرف یکنواخت منابع ممکن است تعجب آور باشد، به جلوگیری از از دست دادن فرصت های خوب کمک می کند و اغلب با اهداف تجاری همسو می شود بنابراین موثر است. تبار آینه همچنین اجازه می دهد تا انواع قوانین به روز رسانی را فراهم کند. جزئیات بیشتر در مقاله موجود است.
مروری بر الگوریتم فرود آینه دوگانه. |
با طراحی، فرود آینه دوگانه دارای ویژگی خود اصلاحی است که از تخلیه زودهنگام منابع یا انتظار طولانی برای مصرف منابع و از دست دادن فرصت های خوب جلوگیری می کند. هنگامی که یک درخواست منابع کمتر یا بیشتر از هدف مصرف می کند، متغیر دوگانه مربوطه افزایش یا کاهش می یابد. هنگامی که منابع قیمت بالاتر یا پایینتری دارند، اقدامات آتی برای مصرف محافظهکارانه یا تهاجمیتر منابع انتخاب میشوند.
پیاده سازی این الگوریتم آسان، سریع است و در محیط های مختلف از عملکرد قابل توجهی برخوردار است. اینها برخی از ویژگی های برجسته الگوریتم ما هستند:
- روش های موجود مستلزم حل دوره ای مسائل بهینه سازی کمکی بزرگ با استفاده از داده های گذشته است. در مقابل، این الگوریتم نیازی به حل مشکل بهینه سازی کمکی ندارد و یک قانون بسیار ساده برای به روز رسانی متغیرهای دوگانه دارد که در بسیاری از موارد می توان آن را در پیچیدگی زمانی خطی اجرا کرد. بنابراین، برای بسیاری از برنامه های کاربردی بلادرنگ که نیاز به تصمیم گیری سریع دارند، جذاب است.
- حداقل الزامات در مورد ساختار مشکل وجود دارد. چنین انعطافپذیری باعث میشود که نزول آینهای دوتایی بتواند بسیاری از برنامهها را در بخشهای مختلف با حداقل تغییرات انجام دهد. علاوه بر این، الگوریتمهای ما انعطافپذیر هستند زیرا اهداف، محدودیتها یا تنظیمکنندههای مختلفی را در خود جای میدهند. تصمیم گیرندگان با ترکیب تنظیم کننده ها می توانند اهداف مهمی فراتر از کارایی اقتصادی، مانند انصاف را شامل شوند.
- الگوریتمهای موجود برای مشکلات تخصیص آنلاین برای دادههای ورودی متخاصم یا تصادفی تنظیم شدهاند. الگوریتمهای ورودیهای متخاصم قوی هستند زیرا تقریباً هیچ فرضی در مورد ساختار دادهها نمیکنند، اما به نوبه خود تضمینهای عملکردی را به دست میآورند که در عمل بسیار بدبینانه هستند. از سوی دیگر، الگوریتمهای ورودی تصادفی با بهرهبرداری از الگوهای آماری در دادهها از ضمانتهای عملکرد بهتری برخوردار میشوند، اما زمانی که مدل به درستی مشخص نشده باشد، عملکرد ضعیفی دارند. با این حال، نزول آینه دوگانه، عملکرد نزدیک به بهینه را در هر دو مدل ورودی تصادفی و خصمانه به دست میآورد در حالی که از ساختار مدل ورودی غافل است. در مقایسه با کار موجود روی الگوریتمهای تقریب همزمان، روش ما کلیتر است، برای طیف وسیعی از مسائل کاربرد دارد و نیازی به پیشبینی ندارد. در زیر مقایسه ای از الگوریتم ما با سایر روش های پیشرفته ارائه شده است. نتایج بر اساس داده های مصنوعی برای یک مشکل تخصیص آگهی است.
عملکرد نزول آینه دوگانه، یک روش مبتنی بر آموزش، و یک روش خصمانه نسبت به راه حل آفلاین بهینه. مقادیر پایین تر نشان دهنده عملکرد نزدیک تر به تخصیص بهینه آفلاین است. نتایج با استفاده از آزمایشهای مصنوعی بر اساس دادههای عمومی برای یک مشکل تخصیص آگهی تولید میشوند. |
نتیجه
در این پست، الگوریتمی برای مشکلات تخصیص آنلاین که ساده، قوی و منعطف است را معرفی کردیم. به ویژه قابل توجه است که پس از یک خط طولانی کار در الگوریتم های تخصیص آنلاین، فرود آینه دوگانه راهی برای تجزیه و تحلیل طیف وسیع تری از الگوریتم ها با اولویت های استحکام برتر در مقایسه با تکنیک های قبلی ارائه می دهد. Dual Mirror descent طیف وسیعی از کاربردها در چندین بخش تجاری دارد و در طول زمان در Google برای کمک به تبلیغکنندگان برای کسب ارزش بیشتر از طریق تصمیمگیری الگوریتمی بهتر استفاده شده است. ما همچنین در حال بررسی کارهای بیشتر مربوط به فرود آینه و اتصالات آن به کنترلکنندههای PI هستیم.
سپاسگزاریها
مایلیم از نویسندگان همکارمان هایهائو لو و بالو سیوان و کشیرا باوالکار برای حمایت و مشارکت استثناییشان تشکر کنیم. همچنین مایلیم از همکاران خود در تیم کیفیت تبلیغات و تحقیقات الگوریتم بازار تشکر کنیم.
1در معادله زیر رسمیت یافته است: ↩