در بسیاری از برنامه های محاسباتی، سیستم نیاز به تصمیم گیری برای ارائه درخواست هایی دارد که به صورت آنلاین می رسند. به عنوان مثال، یک برنامه ناوبری را در نظر بگیرید که به درخواست های راننده پاسخ می دهد. در چنین شرایطی عدم اطمینان ذاتی در مورد جنبه های مهم مشکل وجود دارد. به عنوان مثال، ترجیحات راننده با توجه به ویژگی های مسیر اغلب ناشناخته است و تاخیر در بخش های جاده می تواند نامشخص باشد. حوزه یادگیری ماشین آنلاین چنین تنظیماتی را مطالعه می کند و تکنیک های مختلفی را برای مشکلات تصمیم گیری در شرایط عدم قطعیت ارائه می دهد.
یک موتور ناوبری باید تصمیم بگیرد که چگونه درخواست این کاربر را مسیریابی کند. رضایت کاربر به ازدحام (نامشخص) دو مسیر و ترجیحات ناشناخته کاربر در مورد ویژگیهای مختلف از جمله دیدنی، ایمن بودن مسیر و غیره بستگی دارد. |
یک مشکل بسیار شناخته شده در این چارچوب این است مشکل راهزن چند مسلح، که در آن سیستم دارای مجموعه ای از n گزینه های موجود (بازوها) که از آن خواسته می شود در هر دور (درخواست کاربر) انتخاب شود، به عنوان مثال، مجموعه ای از مسیرهای جایگزین از پیش محاسبه شده در ناوبری. رضایت کاربر با الف سنجیده می شود جایزه که به عوامل ناشناخته مانند ترجیحات کاربر و تاخیر در بخش جاده بستگی دارد. عملکرد یک الگوریتم به پایان رسیده است تی دور با بهترین عمل ثابت در گذشته با استفاده از مقایسه شده است پشیمان شدن. پشیمانی (تفاوت بین پاداش بهترین بازو و پاداش به دست آمده توسط الگوریتم در همه تی دور). در کارشناسان گونهای از مسئله راهزن چند دستی، همه پاداشها پس از هر دور مشاهده میشوند و نه فقط پاداشی که توسط الگوریتم بازی میشود.
نمونه ای از مشکل کارشناسان جدول پاداش های به دست آمده با دنبال کردن هر یک از 3 کارشناس را در هر دور نشان می دهد = 1، 2، 3، 4. بهترین متخصص در آینده نگری (و از این رو معیاری برای مقایسه) وسط است، با مجموع پاداش 21. اگر به عنوان مثال، ما در دو دور اول کارشناس 1 و در دو دور آخر کارشناس 3 را انتخاب کرده بودیم (یادتان باشد که قبل از مشاهده جوایز هر دور باید انتخاب کنیم)، پاداش 17 را استخراج می کردیم که باعث پشیمانی می شود. برابر با 21 – 17 = 4. |
این مشکلات به طور گسترده مورد مطالعه قرار گرفته اند و الگوریتم های موجود می توانند به پشیمانی زیرخطی دست یابند. به عنوان مثال، در مسئله راهزن چند مسلح، بهترین الگوریتمهای موجود میتوانند به پشیمانی از درجه √T دست یابند. با این حال، این الگوریتم ها بر بهینه سازی برای بدترین حالت نمونهها، و فراوانی دادههای موجود در دنیای واقعی را که به ما امکان میدهد مدلهای یادگیری ماشینی را آموزش دهیم که قادر به کمک به ما در طراحی الگوریتم هستند، در نظر نگیریم.
در «یادگیری آنلاین و راهزنان با نکات پرسوجو شده» (ارائه شده در ITCS 2023)، نشان میدهیم که چگونه یک مدل ML که راهنمایی ضعیفی را در اختیار ما قرار میدهد، میتواند عملکرد یک الگوریتم را در تنظیمات راهزن مانند به طور قابل توجهی بهبود بخشد. بسیاری از مدلهای ML با استفاده از دادههای گذشته مرتبط با دقت آموزش داده میشوند. به عنوان مثال، در برنامه مسیریابی، می توان از داده های گذشته خاص برای تخمین تاخیرهای بخش جاده و بازخورد گذشته از رانندگان برای یادگیری کیفیت مسیرهای خاص استفاده کرد. مدل هایی که با چنین داده هایی آموزش دیده اند، در موارد خاص می توانند بازخورد بسیار دقیقی ارائه دهند. با این حال، الگوریتمهای ما به تضمینهای قوی دست مییابند حتی زمانی که بازخورد مدل به شکل یک اشاره ضعیف کمتر صریح باشد. به طور خاص، ما فقط می خواهیم که مدل پیش بینی کند کدام یک از دو گزینه بهتر خواهد بود. در برنامه ناوبری این معادل این است که الگوریتم دو مسیر را انتخاب کند و مدل ETA را جستجو کند که کدام یک از این دو سریعتر است، یا دو مسیر با ویژگی های متفاوت را به کاربر ارائه دهد و به او اجازه دهد بهترین مسیر را انتخاب کند. با طراحی الگوریتمهایی که از چنین اشارهای استفاده میکنند، میتوانیم: بهبود پشیمانی راهزنان تنظیم در مقیاس نمایی از نظر وابستگی به T و بهبود حسرت کارشناسان تنظیم از ترتیب √T برای مستقل شدن از T. به طور خاص، حد بالایی ما فقط به تعداد متخصصان بستگی دارد. n و حداکثر لاگ است(n).
ایده های الگوریتمی
الگوریتم ما برای راهزنان تنظیم از الگوریتم شناخته شده کران اطمینان بالا (UCB) استفاده می کند. الگوریتم UCB به عنوان امتیاز برای هر بازو، میانگین پاداش مشاهده شده در آن بازو را تا کنون حفظ می کند و به آن یک پارامتر خوش بینی اضافه می کند که با تعداد دفعاتی که بازو کشیده شده است، کوچکتر می شود، بنابراین بین اکتشاف و بهره برداری تعادل برقرار می کند. الگوریتم ما امتیازات UCB را روی آن اعمال می کند جفت بازو، عمدتاً در تلاش برای استفاده از مدل مقایسه زوجی موجود که می تواند بهترین بازو را مشخص کند.. هر جفت بازو من و j به عنوان یک گروه بندی می شود متا بازو (من، j) که پاداش آن در هر دور برابر است با حداکثر پاداش بین دو بازو. الگوریتم ما امتیازات UCB متا بازوها را مشاهده می کند و جفت (من، j) که بالاترین امتیاز را دارد. سپس جفت بازوها بهعنوان پرسوجو به مدل پیشبینی زوجی کمکی ML ارسال میشوند، که با بهترین از دو بازو پاسخ میدهد. این پاسخ بازویی است که در نهایت توسط الگوریتم استفاده می شود.
مسئله تصمیم گیری سه مسیر نامزد را در نظر می گیرد. الگوریتم ما در عوض تمام جفت مسیرهای نامزد را در نظر می گیرد. فرض کنید جفت 2 بیشترین امتیاز را در دور فعلی دارد. این جفت به مدل کمکی پیشبینی زوجی ML داده میشود، که خروجی هر یک از دو مسیر در دور فعلی بهتر است. |
الگوریتم ما برای کارشناسان تنظیم یک رهبر پیرو منظم میگیرد (FtRL) رویکرد، که پاداش کل هر متخصص را حفظ می کند و نویز تصادفی را به هر یک اضافه می کند، قبل از انتخاب بهترین ها برای دور فعلی. الگوریتم ما این فرآیند را دو بار تکرار میکند، دو بار نویز تصادفی ترسیم میکند و در هر یک از دو تکرار، بالاترین پاداش را انتخاب میکند. سپس از دو متخصص انتخاب شده برای پرس و جو از مدل کمکی ML استفاده می شود. پاسخ مدل برای بهترین پاسخ بین دو متخصص، پاسخی است که توسط الگوریتم بازی میشود.
نتایج
الگوریتمهای ما از مفهوم نکات ضعیف برای دستیابی به پیشرفتهای قوی از نظر تضمینهای نظری، از جمله بهبود تصاعدی در وابستگی پشیمانی به افق زمانی یا حتی حذف کامل این وابستگی، استفاده میکنند. برای نشان دادن اینکه چگونه الگوریتم میتواند از راهحلهای پایه موجود بهتر عمل کند، تنظیماتی را ارائه میکنیم که در آن 1 از n اسلحه های نامزد به طور مداوم به طور حاشیه ای بهتر از اسلحه است n-1 بازو باقی مانده ما الگوریتم کاوشگر ML خود را با خط پایه ای مقایسه می کنیم که از الگوریتم استاندارد UCB برای انتخاب دو بازو برای ارائه به مدل مقایسه زوجی استفاده می کند. مشاهده میکنیم که خط پایه UCB همچنان پشیمانی را جمعآوری میکند در حالی که الگوریتم کاوش به سرعت بهترین بازو را شناسایی میکند و آن را بدون انباشته شدن پشیمانی ادامه میدهد.
مثالی که در آن الگوریتم ما از خط پایه مبتنی بر UCB بهتر عمل می کند. مصداق در نظر می گیرد n بازوهایی که یکی از آنها همیشه به طور جزئی بهتر از بقیه است n-1. |
نتیجه
در این کار به بررسی این موضوع می پردازیم که چگونه یک مدل مقایسه زوجی ساده ML می تواند نکات ساده ای را ارائه دهد که در تنظیماتی مانند مشکلات متخصصان و راهزنان بسیار قدرتمند است. در مقاله خود، نحوه اعمال این ایدهها در تنظیمات پیچیدهتر مانند بهینهسازی خطی و محدب آنلاین را بیشتر ارائه میکنیم. ما معتقدیم مدل نکات ما می تواند کاربردهای جالب تری در مسائل بهینه سازی ML و ترکیبی داشته باشد.
سپاسگزاریها
از نویسندگان همکارمان آدیتیا باسکارا (دانشگاه یوتا)، سانجین ایم (دانشگاه کالیفرنیا، مرسدس)، و کامش موناگالا (دانشگاه دوک) تشکر می کنیم.