یادگیری با نکات پرس و جو – وبلاگ هوش مصنوعی گوگل - سئو PBN

ارسال شده توسط Sreenivas Gollapudi، دانشمند تحقیقات ارشد کارکنان، و Kostas Kollias، دانشمند تحقیقات کارکنان، تیم تحقیق، الگوریتم ها و بهینه سازی گوگل

در بسیاری از برنامه های محاسباتی، سیستم نیاز به تصمیم گیری برای ارائه درخواست هایی دارد که به صورت آنلاین می رسند. به عنوان مثال، یک برنامه ناوبری را در نظر بگیرید که به درخواست های راننده پاسخ می دهد. در چنین شرایطی عدم اطمینان ذاتی در مورد جنبه های مهم مشکل وجود دارد. به عنوان مثال، ترجیحات راننده با توجه به ویژگی های مسیر اغلب ناشناخته است و تاخیر در بخش های جاده می تواند نامشخص باشد. حوزه یادگیری ماشین آنلاین چنین تنظیماتی را مطالعه می کند و تکنیک های مختلفی را برای مشکلات تصمیم گیری در شرایط عدم قطعیت ارائه می دهد.

یک موتور ناوبری باید تصمیم بگیرد که چگونه درخواست این کاربر را مسیریابی کند. رضایت کاربر به ازدحام (نامشخص) دو مسیر و ترجیحات ناشناخته کاربر در مورد ویژگی‌های مختلف از جمله دیدنی، ایمن بودن مسیر و غیره بستگی دارد.

یک مشکل بسیار شناخته شده در این چارچوب این است مشکل راهزن چند مسلح، که در آن سیستم دارای مجموعه ای از n گزینه های موجود (بازوها) که از آن خواسته می شود در هر دور (درخواست کاربر) انتخاب شود، به عنوان مثال، مجموعه ای از مسیرهای جایگزین از پیش محاسبه شده در ناوبری. رضایت کاربر با الف سنجیده می شود جایزه که به عوامل ناشناخته مانند ترجیحات کاربر و تاخیر در بخش جاده بستگی دارد. عملکرد یک الگوریتم به پایان رسیده است تی دور با بهترین عمل ثابت در گذشته با استفاده از مقایسه شده است پشیمان شدن. پشیمانی (تفاوت بین پاداش بهترین بازو و پاداش به دست آمده توسط الگوریتم در همه تی دور). در کارشناسان گونه‌ای از مسئله راهزن چند دستی، همه پاداش‌ها پس از هر دور مشاهده می‌شوند و نه فقط پاداشی که توسط الگوریتم بازی می‌شود.

نمونه ای از مشکل کارشناسان جدول پاداش های به دست آمده با دنبال کردن هر یک از 3 کارشناس را در هر دور نشان می دهد = 1، 2، 3، 4. بهترین متخصص در آینده نگری (و از این رو معیاری برای مقایسه) وسط است، با مجموع پاداش 21. اگر به عنوان مثال، ما در دو دور اول کارشناس 1 و در دو دور آخر کارشناس 3 را انتخاب کرده بودیم (یادتان باشد که قبل از مشاهده جوایز هر دور باید انتخاب کنیم)، پاداش 17 را استخراج می کردیم که باعث پشیمانی می شود. برابر با 21 – 17 = 4.

این مشکلات به طور گسترده مورد مطالعه قرار گرفته اند و الگوریتم های موجود می توانند به پشیمانی زیرخطی دست یابند. به عنوان مثال، در مسئله راهزن چند مسلح، بهترین الگوریتم‌های موجود می‌توانند به پشیمانی از درجه √T دست یابند. با این حال، این الگوریتم ها بر بهینه سازی برای بدترین حالت نمونه‌ها، و فراوانی داده‌های موجود در دنیای واقعی را که به ما امکان می‌دهد مدل‌های یادگیری ماشینی را آموزش دهیم که قادر به کمک به ما در طراحی الگوریتم هستند، در نظر نگیریم.

در «یادگیری آنلاین و راهزنان با نکات پرس‌وجو شده» (ارائه شده در ITCS 2023)، نشان می‌دهیم که چگونه یک مدل ML که راهنمایی ضعیفی را در اختیار ما قرار می‌دهد، می‌تواند عملکرد یک الگوریتم را در تنظیمات راهزن مانند به طور قابل توجهی بهبود بخشد. بسیاری از مدل‌های ML با استفاده از داده‌های گذشته مرتبط با دقت آموزش داده می‌شوند. به عنوان مثال، در برنامه مسیریابی، می توان از داده های گذشته خاص برای تخمین تاخیرهای بخش جاده و بازخورد گذشته از رانندگان برای یادگیری کیفیت مسیرهای خاص استفاده کرد. مدل هایی که با چنین داده هایی آموزش دیده اند، در موارد خاص می توانند بازخورد بسیار دقیقی ارائه دهند. با این حال، الگوریتم‌های ما به تضمین‌های قوی دست می‌یابند حتی زمانی که بازخورد مدل به شکل یک اشاره ضعیف کمتر صریح باشد. به طور خاص، ما فقط می خواهیم که مدل پیش بینی کند کدام یک از دو گزینه بهتر خواهد بود. در برنامه ناوبری این معادل این است که الگوریتم دو مسیر را انتخاب کند و مدل ETA را جستجو کند که کدام یک از این دو سریعتر است، یا دو مسیر با ویژگی های متفاوت را به کاربر ارائه دهد و به او اجازه دهد بهترین مسیر را انتخاب کند. با طراحی الگوریتم‌هایی که از چنین اشاره‌ای استفاده می‌کنند، می‌توانیم: بهبود پشیمانی راهزنان تنظیم در مقیاس نمایی از نظر وابستگی به T و بهبود حسرت کارشناسان تنظیم از ترتیب √T برای مستقل شدن از T. به طور خاص، حد بالایی ما فقط به تعداد متخصصان بستگی دارد. n و حداکثر لاگ است(n).

ایده های الگوریتمی

الگوریتم ما برای راهزنان تنظیم از الگوریتم شناخته شده کران اطمینان بالا (UCB) استفاده می کند. الگوریتم UCB به عنوان امتیاز برای هر بازو، میانگین پاداش مشاهده شده در آن بازو را تا کنون حفظ می کند و به آن یک پارامتر خوش بینی اضافه می کند که با تعداد دفعاتی که بازو کشیده شده است، کوچکتر می شود، بنابراین بین اکتشاف و بهره برداری تعادل برقرار می کند. الگوریتم ما امتیازات UCB را روی آن اعمال می کند جفت بازو، عمدتاً در تلاش برای استفاده از مدل مقایسه زوجی موجود که می تواند بهترین بازو را مشخص کند.. هر جفت بازو من و j به عنوان یک گروه بندی می شود متا بازو (من، j) که پاداش آن در هر دور برابر است با حداکثر پاداش بین دو بازو. الگوریتم ما امتیازات UCB متا بازوها را مشاهده می کند و جفت (من، j) که بالاترین امتیاز را دارد. سپس جفت بازوها به‌عنوان پرس‌وجو به مدل پیش‌بینی زوجی کمکی ML ارسال می‌شوند، که با بهترین از دو بازو پاسخ می‌دهد. این پاسخ بازویی است که در نهایت توسط الگوریتم استفاده می شود.

مسئله تصمیم گیری سه مسیر نامزد را در نظر می گیرد. الگوریتم ما در عوض تمام جفت مسیرهای نامزد را در نظر می گیرد. فرض کنید جفت 2 بیشترین امتیاز را در دور فعلی دارد. این جفت به مدل کمکی پیش‌بینی زوجی ML داده می‌شود، که خروجی هر یک از دو مسیر در دور فعلی بهتر است.

الگوریتم ما برای کارشناسان تنظیم یک رهبر پیرو منظم می‌گیرد (FtRL) رویکرد، که پاداش کل هر متخصص را حفظ می کند و نویز تصادفی را به هر یک اضافه می کند، قبل از انتخاب بهترین ها برای دور فعلی. الگوریتم ما این فرآیند را دو بار تکرار می‌کند، دو بار نویز تصادفی ترسیم می‌کند و در هر یک از دو تکرار، بالاترین پاداش را انتخاب می‌کند. سپس از دو متخصص انتخاب شده برای پرس و جو از مدل کمکی ML استفاده می شود. پاسخ مدل برای بهترین پاسخ بین دو متخصص، پاسخی است که توسط الگوریتم بازی می‌شود.

نتایج

الگوریتم‌های ما از مفهوم نکات ضعیف برای دستیابی به پیشرفت‌های قوی از نظر تضمین‌های نظری، از جمله بهبود تصاعدی در وابستگی پشیمانی به افق زمانی یا حتی حذف کامل این وابستگی، استفاده می‌کنند. برای نشان دادن اینکه چگونه الگوریتم می‌تواند از راه‌حل‌های پایه موجود بهتر عمل کند، تنظیماتی را ارائه می‌کنیم که در آن 1 از n اسلحه های نامزد به طور مداوم به طور حاشیه ای بهتر از اسلحه است n-1 بازو باقی مانده ما الگوریتم کاوشگر ML خود را با خط پایه ای مقایسه می کنیم که از الگوریتم استاندارد UCB برای انتخاب دو بازو برای ارائه به مدل مقایسه زوجی استفاده می کند. مشاهده می‌کنیم که خط پایه UCB همچنان پشیمانی را جمع‌آوری می‌کند در حالی که الگوریتم کاوش به سرعت بهترین بازو را شناسایی می‌کند و آن را بدون انباشته شدن پشیمانی ادامه می‌دهد.

مثالی که در آن الگوریتم ما از خط پایه مبتنی بر UCB بهتر عمل می کند. مصداق در نظر می گیرد n بازوهایی که یکی از آنها همیشه به طور جزئی بهتر از بقیه است n-1.

نتیجه

در این کار به بررسی این موضوع می پردازیم که چگونه یک مدل مقایسه زوجی ساده ML می تواند نکات ساده ای را ارائه دهد که در تنظیماتی مانند مشکلات متخصصان و راهزنان بسیار قدرتمند است. در مقاله خود، نحوه اعمال این ایده‌ها در تنظیمات پیچیده‌تر مانند بهینه‌سازی خطی و محدب آنلاین را بیشتر ارائه می‌کنیم. ما معتقدیم مدل نکات ما می تواند کاربردهای جالب تری در مسائل بهینه سازی ML و ترکیبی داشته باشد.

سپاسگزاریها

از نویسندگان همکارمان آدیتیا باسکارا (دانشگاه یوتا)، سانجین ایم (دانشگاه کالیفرنیا، مرسدس)، و کامش موناگالا (دانشگاه دوک) تشکر می کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور