ذخیره سازی یک ایده همه جا حاضر در علوم کامپیوتر است که به طور قابل توجهی عملکرد سیستم های ذخیره سازی و بازیابی را با ذخیره کردن زیرمجموعه ای از آیتم های محبوب نزدیک به مشتری بر اساس الگوهای درخواست بهبود می بخشد. یک بخش الگوریتمی مهم مدیریت حافظه نهان، خط مشی تصمیم گیری است که برای به روز رسانی پویا مجموعه اقلام ذخیره شده استفاده می شود، که در طی چندین دهه به طور گسترده بهینه شده است و منجر به چندین اکتشافی کارآمد و قوی می شود. در حالی که استفاده از یادگیری ماشین در سیاستهای حافظه پنهان نتایج امیدوارکنندهای را در سالهای اخیر نشان داده است (مثلاً LRB، LHD، برنامههای ذخیرهسازی)، پیشی گرفتن از روشهای اکتشافی قوی به گونهای که بتواند به طور قابل اعتمادی فراتر از معیارها به تنظیمات تولید تعمیم داده شود، در عین حال یک چالش باقی مانده است. و سربار حافظه
در «HALP: خط مشی اخراج ترجیحی یادگیری با کمک اکتشافی برای شبکه تحویل محتوای YouTube»، ارائه شده در NSDI 2023، یک چارچوب پیشرفته و پیشرفته برای حذف حافظه پنهان را معرفی می کنیم که بر اساس پاداش های آموخته شده است و از یادگیری ترجیحی با بازخورد خودکار استفاده می کند. چارچوب اولویت یادگیری با کمک اکتشافی (HALP) یک متاالگوریتم است که از تصادفی سازی برای ادغام یک قانون تخلیه پایه اکتشافی سبک با یک مدل پاداش آموخته شده استفاده می کند. مدل پاداش یک شبکه عصبی سبک وزن است که به طور مداوم با بازخورد خودکار مداوم در مورد مقایسه ترجیحات طراحی شده برای تقلید از اوراکل آفلاین آموزش می بیند. ما در مورد اینکه HALP چگونه کارایی زیرساخت و تأخیر پخش ویدیوی کاربر را برای شبکه تحویل محتوای YouTube بهبود داده است، بحث میکنیم.
ترجیحات آموخته شده برای تصمیمات تخلیه حافظه پنهان
چارچوب HALP تصمیمات تخلیه حافظه پنهان را بر اساس دو مؤلفه محاسبه میکند: (1) یک مدل پاداش عصبی آموزشدیده با بازخورد خودکار از طریق یادگیری ترجیحی، و (2) یک متاالگوریتم که یک مدل پاداش آموختهشده را با یک اکتشافی سریع ترکیب میکند. همانطور که کش درخواست های دریافتی را مشاهده می کند، HALP به طور مداوم یک شبکه عصبی کوچک را آموزش می دهد که با فرمول بندی این روش به عنوان یک روش یادگیری ترجیحی از طریق بازخورد ترجیحی زوجی، یک پاداش اسکالر برای هر آیتم پیش بینی می کند. این جنبه از HALP شبیه به یادگیری تقویتی از سیستم های بازخورد انسانی (RLHF) است، اما با دو تمایز مهم:
- بازخورد است خودکار و از نتایج شناخته شده در مورد ساختار سیاست های بیرون راندن حافظه پنهان آفلاین بهینه استفاده می کند.
- مدل است به طور مداوم یاد گرفت با استفاده از یک بافر گذرا از نمونه های آموزشی ساخته شده از فرآیند بازخورد خودکار.
تصمیمات اخراج متکی به یک مکانیسم فیلتر با دو مرحله است. ابتدا، یک زیرمجموعه کوچک از نامزدها با استفاده از یک اکتشافی که کارآمد است، اما از نظر عملکرد کمتر بهینه است، انتخاب می شود. سپس، یک مرحله رتبهبندی مجدد از درون کاندیداهای پایه از طریق استفاده کم هزینه از یک تابع امتیازدهی شبکه عصبی برای “تقویت” کیفیت تصمیم نهایی بهینه میشود.
به عنوان یک اجرای سیاست کش آماده تولید، HALP نه تنها تصمیمات اخراج را اتخاذ میکند، بلکه فرآیند سرتاسر نمونهبرداری از جستارهای ترجیحی زوجی را که برای ساخت مؤثر بازخورد مرتبط و بهروزرسانی مدل برای قدرت تصمیمگیری اخراج استفاده میشود، در بر میگیرد.
یک مدل پاداش عصبی
HALP از یک پرسپترون چندلایه دولایه (MLP) سبک وزن به عنوان مدل پاداش خود برای امتیازدهی انتخابی آیتم های فردی در حافظه پنهان استفاده می کند. ویژگیها بهعنوان یک «کش شبح» (شبیه به خطمشیهای کلاسیک مانند ARC) ساخته و مدیریت میشوند. بعد از هر درخواست جستجوی داده شده، علاوه بر عملیات کش معمولی، HALP حسابداری را انجام می دهد (به عنوان مثال، ردیابی و به روز رسانی ابرداده های ویژگی در یک ذخیره کلید-مقدار محدود شده با ظرفیت) لازم برای به روز رسانی نمایش داخلی پویا. این شامل موارد زیر است: (1) ویژگی های برچسب گذاری شده خارجی ارائه شده توسط کاربر به عنوان ورودی، همراه با درخواست جستجوی حافظه پنهان، و (2) ویژگی های پویا ساخته شده داخلی (مانند زمان از آخرین دسترسی، میانگین زمان بین دسترسی ها) ساخته شده از زمان های جستجو مشاهده شده در هر مورد.
HALP مدل پاداش خود را به طور کامل آنلاین و با شروع یک مقدار اولیه وزن تصادفی میآموزد. این ممکن است ایده بدی به نظر برسد، به خصوص اگر تصمیمات منحصراً برای بهینه سازی مدل پاداش گرفته شود. با این حال، تصمیمات اخراج بر هر دو مدل پاداش آموخته شده و یک اکتشافی غیربهینه اما ساده و قوی مانند LRU متکی است. این کار زمانی که مدل پاداش به طور کامل تعمیم یافته است، عملکرد بهینه را ممکن میسازد، در حالی که به یک مدل پاداش موقتا غیر اطلاعاتی که هنوز تعمیم داده نشده است، یا در حال رسیدن به یک محیط در حال تغییر است، قوی باقی میماند.
یکی دیگر از مزایای آموزش آنلاین، تخصص است. هر سرور کش در یک محیط بالقوه متفاوت اجرا می شود (به عنوان مثال، موقعیت جغرافیایی)، که بر شرایط شبکه محلی و محتوای محبوب محلی و موارد دیگر تأثیر می گذارد. آموزش آنلاین به طور خودکار این اطلاعات را جمع آوری می کند در حالی که بار تعمیم را کاهش می دهد، برخلاف یک راه حل آموزشی آفلاین.
امتیاز دهی به نمونه ها از یک صف اولویت تصادفی
بهینه سازی کیفیت تصمیمات اخراج با یک هدف منحصراً آموخته شده به دو دلیل می تواند غیرعملی باشد.
- محدودیتهای راندمان محاسبه: استنتاج با یک شبکه آموختهشده میتواند به طور قابلتوجهی گرانتر از محاسبات انجامشده در سیاستهای حافظه پنهان عملی که در مقیاس عمل میکنند، باشد. این نه تنها بیانگر بودن شبکه و ویژگیها را محدود میکند، بلکه تعداد دفعات استفاده از آنها در هر تصمیم اخراج را نیز محدود میکند.
- استحکام برای تعمیم خارج از توزیع: HALP در تنظیمی مستقر است که شامل یادگیری مداوم است، جایی که یک بار کاری به سرعت در حال تغییر ممکن است الگوهای درخواستی ایجاد کند که ممکن است به طور موقت نسبت به دادههای دیده شده قبلی خارج از توزیع باشند.
برای پرداختن به این مسائل، HALP ابتدا یک قانون امتیازدهی اکتشافی ارزان قیمت را اعمال میکند که با اولویت تخلیه مطابقت دارد تا یک نمونه کوچک کاندید شناسایی شود. این فرآیند بر اساس نمونه گیری تصادفی کارآمد است که صف های اولویت دقیق را تقریب می زند. تابع اولویت برای تولید نمونه های کاندید در نظر گرفته شده است که با استفاده از الگوریتم های تنظیم شده دستی موجود، به عنوان مثال، LRU، سریع محاسبه شود. با این حال، این قابل تنظیم است تا با ویرایش یک تابع هزینه ساده، سایر اکتشافیهای جایگزین حافظه پنهان را تقریبی کند. بر خلاف کار قبلی، که در آن از تصادفی سازی برای تقریب با کارایی استفاده شد، HALP نیز متکی است بر روی تصادفی سازی ذاتی در داوطلبان نمونه گیری در طول مراحل زمانی برای ارائه تنوع اکتشافی لازم در داوطلبان نمونه برای آموزش و استنباط.
مورد نهایی اخراج شده از بین نامزدهای ارائه شده، معادل بهترین نمونه رتبه بندی شده انتخاب می شود، که مربوط به حداکثر کردن پیش بینی شده است. امتیاز اولویت با توجه به مدل پاداش عصبی. همان مجموعه ای از نامزدهای مورد استفاده برای تصمیم گیری های اخراج نیز برای ساخت پرس و جوهای ترجیحی زوجی برای بازخورد خودکار استفاده می شود، که به به حداقل رساندن انحراف آموزشی و استنتاج بین نمونه ها کمک می کند.
![]() |
مروری بر فرآیند دو مرحلهای که برای هر تصمیم اخراج درخواست میشود. |
یادگیری ترجیحی آنلاین با بازخورد خودکار
مدل پاداش با استفاده از بازخورد آنلاین آموخته میشود، که براساس برچسبهای ترجیحی اختصاص داده شده بهطور خودکار است که نشان میدهد، هر جا که امکان پذیر باشد، ترتیب اولویتهای رتبهبندی شده برای زمان صرف شده برای دریافت دسترسیهای مجدد در آینده، از یک عکس فوری معین در زمان در میان هر نمونه پرس و جو شروع میشود. موارد. این شبیه به سیاست بهینه اوراکل است که در هر زمان، آیتمی را با دورترین دسترسی آینده از همه آیتمهای موجود در حافظه پنهان خارج میکند.
![]() |
تولید بازخورد خودکار برای یادگیری مدل پاداش. |
برای آموزنده کردن این فرآیند بازخورد، HALP جستارهای ترجیحی زوجی را می سازد که به احتمال زیاد برای تصمیمات اخراج مرتبط هستند. در هماهنگی با عملیات معمول حافظه پنهان، HALP تعداد کمی از جستارهای ترجیحی زوجی را هنگام اتخاذ هر تصمیم اخراج صادر می کند و آنها را به مجموعه ای از آنها اضافه می کند. مقایسه های در انتظار برچسبهای این مقایسههای معلق فقط در یک زمان تصادفی در آینده قابل حل هستند. برای فعالیت آنلاین، HALP همچنین پس از هر درخواست جستجو، حسابداری اضافی را انجام می دهد تا مقایسه های معلق را که می تواند به صورت تدریجی پس از درخواست فعلی برچسب گذاری شود، پردازش کند. HALP بافر مقایسه معلق را با هر عنصر درگیر در مقایسه فهرستبندی میکند و حافظه مصرفشده توسط مقایسههای قدیمی را بازیافت میکند (هیچکدام از آنها ممکن است دسترسی مجدد پیدا کنند) تا اطمینان حاصل شود که سربار حافظه مرتبط با تولید بازخورد در طول زمان محدود باقی میماند.
![]() |
نمای کلی تمام اجزای اصلی در HALP. |
نتایج: تأثیر بر CDN YouTube
از طریق تجزیه و تحلیل تجربی، ما نشان میدهیم که HALP به طور مطلوب با سیاستهای کش مدرن در ردیابیهای معیار عمومی از نظر نرخ از دست دادن حافظه پنهان مقایسه میشود. با این حال، در حالی که معیارهای عمومی ابزار مفیدی هستند، به ندرت برای ثبت همه الگوهای استفاده در سراسر جهان در طول زمان کافی هستند، بدون اینکه به پیکربندیهای سختافزاری متنوعی که قبلاً استفاده کردهایم اشاره کنیم.
تا همین اواخر، سرورهای یوتیوب از یک نوع LRU بهینه برای حذف حافظه پنهان استفاده می کردند. HALP خروجی/ورودی حافظه YouTube را افزایش میدهد – نسبت کل خروجی پهنای باند ارائهشده توسط CDN به مقدار مصرف شده برای بازیابی (ورود) به دلیل از دست دادن حافظه پنهان – تقریباً 12٪ و نرخ ضربه به حافظه تا 6٪. این امر تأخیر را برای کاربران کاهش میدهد، زیرا خواندن حافظه سریعتر از خواندن دیسک است، و همچنین با محافظت از دیسکها در برابر ترافیک، ظرفیت خروجی ماشینهای محدود به دیسک را بهبود میبخشد.
شکل زیر کاهش بصری قانعکنندهای را در نسبت بایت از دست رفته در روزهای پس از عرضه نهایی HALP در CDN YouTube نشان میدهد، که اکنون محتوای بیشتری را از درون حافظه پنهان با تأخیر کمتر به کاربر نهایی ارائه میکند و بدون نیاز به متوسل شدن به بازیابی گران تر که هزینه های عملیاتی را افزایش می دهد.
![]() |
نسبت حذف بایت YouTube در سراسر جهان قبل و بعد از عرضه (خط چین عمودی). |
بهبود عملکرد جمعی همچنان می تواند رگرسیون های مهم را پنهان کند. علاوه بر اندازهگیری تأثیر کلی، ما همچنین یک تحلیل در مقاله انجام میدهیم تا با استفاده از تجزیه و تحلیل سطح ماشین، تأثیر آن را بر روی قفسههای مختلف درک کنیم و آن را بسیار مثبت بدانیم.
نتیجه
ما یک چارچوب پیشرفته و پیشرفته برای حذف حافظه پنهان را معرفی کردیم که بر اساس پاداشهای آموخته شده است و از یادگیری ترجیحی با بازخورد خودکار استفاده میکند. به دلیل انتخاب های طراحی آن، HALP می تواند به روشی مشابه هر خط مشی حافظه پنهان دیگر بدون نیاز به مدیریت جداگانه نمونه های برچسب گذاری شده، روش آموزشی و نسخه های مدل به عنوان خطوط لوله آفلاین اضافی مشترک در اکثر سیستم های یادگیری ماشین، به کار گرفته شود. بنابراین، در مقایسه با سایر الگوریتمهای کلاسیک، تنها هزینه اضافی کمی را متحمل میشود، اما این مزیت را دارد که میتواند از ویژگیهای اضافی برای اتخاذ تصمیمهای اخراج و سازگاری مداوم با الگوهای دسترسی در حال تغییر استفاده کند.
این اولین استقرار در مقیاس بزرگ از یک سیاست حافظه پنهان آموخته شده در یک CDN است که به طور گسترده استفاده می شود و به شدت قاچاق می شود، و به طور قابل توجهی کارایی زیرساخت CDN را بهبود می بخشد و همچنین کیفیت بهتری از تجربه را به کاربران ارائه می دهد.
سپاسگزاریها
Ramki Gummadi اکنون بخشی از Google DeepMind است. مایلیم از جان گیلارد برای کمک به تصاویر و ریچارد اسکلر برای بازخورد در مورد این پست تشکر کنیم.