یادگیری ترجیحی با بازخورد خودکار برای حذف حافظه پنهان – وبلاگ هوش مصنوعی گوگل

ذخیره سازی یک ایده همه جا حاضر در علوم کامپیوتر است که به طور قابل توجهی عملکرد سیستم های ذخیره سازی و بازیابی را با ذخیره کردن زیرمجموعه ای از آیتم های محبوب نزدیک به مشتری بر اساس الگوهای درخواست بهبود می بخشد. یک بخش الگوریتمی مهم مدیریت حافظه نهان، خط مشی تصمیم گیری است که برای به روز رسانی پویا مجموعه اقلام ذخیره شده استفاده می شود، که در طی چندین دهه به طور گسترده بهینه شده است و منجر به چندین اکتشافی کارآمد و قوی می شود. در حالی که استفاده از یادگیری ماشین در سیاست‌های حافظه پنهان نتایج امیدوارکننده‌ای را در سال‌های اخیر نشان داده است (مثلاً LRB، LHD، برنامه‌های ذخیره‌سازی)، پیشی گرفتن از روش‌های اکتشافی قوی به گونه‌ای که بتواند به طور قابل اعتمادی فراتر از معیارها به تنظیمات تولید تعمیم داده شود، در عین حال یک چالش باقی مانده است. و سربار حافظه

در «HALP: خط مشی اخراج ترجیحی یادگیری با کمک اکتشافی برای شبکه تحویل محتوای YouTube»، ارائه شده در NSDI 2023، یک چارچوب پیشرفته و پیشرفته برای حذف حافظه پنهان را معرفی می کنیم که بر اساس پاداش های آموخته شده است و از یادگیری ترجیحی با بازخورد خودکار استفاده می کند. چارچوب اولویت یادگیری با کمک اکتشافی (HALP) یک متاالگوریتم است که از تصادفی سازی برای ادغام یک قانون تخلیه پایه اکتشافی سبک با یک مدل پاداش آموخته شده استفاده می کند. مدل پاداش یک شبکه عصبی سبک وزن است که به طور مداوم با بازخورد خودکار مداوم در مورد مقایسه ترجیحات طراحی شده برای تقلید از اوراکل آفلاین آموزش می بیند. ما در مورد اینکه HALP چگونه کارایی زیرساخت و تأخیر پخش ویدیوی کاربر را برای شبکه تحویل محتوای YouTube بهبود داده است، بحث می‌کنیم.

ترجیحات آموخته شده برای تصمیمات تخلیه حافظه پنهان

چارچوب HALP تصمیمات تخلیه حافظه پنهان را بر اساس دو مؤلفه محاسبه می‌کند: (1) یک مدل پاداش عصبی آموزش‌دیده با بازخورد خودکار از طریق یادگیری ترجیحی، و (2) یک متاالگوریتم که یک مدل پاداش آموخته‌شده را با یک اکتشافی سریع ترکیب می‌کند. همانطور که کش درخواست های دریافتی را مشاهده می کند، HALP به طور مداوم یک شبکه عصبی کوچک را آموزش می دهد که با فرمول بندی این روش به عنوان یک روش یادگیری ترجیحی از طریق بازخورد ترجیحی زوجی، یک پاداش اسکالر برای هر آیتم پیش بینی می کند. این جنبه از HALP شبیه به یادگیری تقویتی از سیستم های بازخورد انسانی (RLHF) است، اما با دو تمایز مهم:

  • بازخورد است خودکار و از نتایج شناخته شده در مورد ساختار سیاست های بیرون راندن حافظه پنهان آفلاین بهینه استفاده می کند.
  • مدل است به طور مداوم یاد گرفت با استفاده از یک بافر گذرا از نمونه های آموزشی ساخته شده از فرآیند بازخورد خودکار.

تصمیمات اخراج متکی به یک مکانیسم فیلتر با دو مرحله است. ابتدا، یک زیرمجموعه کوچک از نامزدها با استفاده از یک اکتشافی که کارآمد است، اما از نظر عملکرد کمتر بهینه است، انتخاب می شود. سپس، یک مرحله رتبه‌بندی مجدد از درون کاندیداهای پایه از طریق استفاده کم هزینه از یک تابع امتیازدهی شبکه عصبی برای “تقویت” کیفیت تصمیم نهایی بهینه می‌شود.

مطالب پیشنهادی  یک معماری رمزگشای متنی رمزگذار بینایی ساده برای کارهای چندوجهی - وبلاگ هوش مصنوعی گوگل

به عنوان یک اجرای سیاست کش آماده تولید، HALP نه تنها تصمیمات اخراج را اتخاذ می‌کند، بلکه فرآیند سرتاسر نمونه‌برداری از جستارهای ترجیحی زوجی را که برای ساخت مؤثر بازخورد مرتبط و به‌روزرسانی مدل برای قدرت تصمیم‌گیری اخراج استفاده می‌شود، در بر می‌گیرد.

یک مدل پاداش عصبی

HALP از یک پرسپترون چندلایه دولایه (MLP) سبک وزن به عنوان مدل پاداش خود برای امتیازدهی انتخابی آیتم های فردی در حافظه پنهان استفاده می کند. ویژگی‌ها به‌عنوان یک «کش شبح» (شبیه به خط‌مشی‌های کلاسیک مانند ARC) ساخته و مدیریت می‌شوند. بعد از هر درخواست جستجوی داده شده، علاوه بر عملیات کش معمولی، HALP حسابداری را انجام می دهد (به عنوان مثال، ردیابی و به روز رسانی ابرداده های ویژگی در یک ذخیره کلید-مقدار محدود شده با ظرفیت) لازم برای به روز رسانی نمایش داخلی پویا. این شامل موارد زیر است: (1) ویژگی های برچسب گذاری شده خارجی ارائه شده توسط کاربر به عنوان ورودی، همراه با درخواست جستجوی حافظه پنهان، و (2) ویژگی های پویا ساخته شده داخلی (مانند زمان از آخرین دسترسی، میانگین زمان بین دسترسی ها) ساخته شده از زمان های جستجو مشاهده شده در هر مورد.

HALP مدل پاداش خود را به طور کامل آنلاین و با شروع یک مقدار اولیه وزن تصادفی می‌آموزد. این ممکن است ایده بدی به نظر برسد، به خصوص اگر تصمیمات منحصراً برای بهینه سازی مدل پاداش گرفته شود. با این حال، تصمیمات اخراج بر هر دو مدل پاداش آموخته شده و یک اکتشافی غیربهینه اما ساده و قوی مانند LRU متکی است. این کار زمانی که مدل پاداش به طور کامل تعمیم یافته است، عملکرد بهینه را ممکن می‌سازد، در حالی که به یک مدل پاداش موقتا غیر اطلاعاتی که هنوز تعمیم داده نشده است، یا در حال رسیدن به یک محیط در حال تغییر است، قوی باقی می‌ماند.

یکی دیگر از مزایای آموزش آنلاین، تخصص است. هر سرور کش در یک محیط بالقوه متفاوت اجرا می شود (به عنوان مثال، موقعیت جغرافیایی)، که بر شرایط شبکه محلی و محتوای محبوب محلی و موارد دیگر تأثیر می گذارد. آموزش آنلاین به طور خودکار این اطلاعات را جمع آوری می کند در حالی که بار تعمیم را کاهش می دهد، برخلاف یک راه حل آموزشی آفلاین.

امتیاز دهی به نمونه ها از یک صف اولویت تصادفی

بهینه سازی کیفیت تصمیمات اخراج با یک هدف منحصراً آموخته شده به دو دلیل می تواند غیرعملی باشد.

  1. محدودیت‌های راندمان محاسبه: استنتاج با یک شبکه آموخته‌شده می‌تواند به طور قابل‌توجهی گران‌تر از محاسبات انجام‌شده در سیاست‌های حافظه پنهان عملی که در مقیاس عمل می‌کنند، باشد. این نه تنها بیانگر بودن شبکه و ویژگی‌ها را محدود می‌کند، بلکه تعداد دفعات استفاده از آن‌ها در هر تصمیم اخراج را نیز محدود می‌کند.
  2. استحکام برای تعمیم خارج از توزیع: HALP در تنظیمی مستقر است که شامل یادگیری مداوم است، جایی که یک بار کاری به سرعت در حال تغییر ممکن است الگوهای درخواستی ایجاد کند که ممکن است به طور موقت نسبت به داده‌های دیده شده قبلی خارج از توزیع باشند.
مطالب پیشنهادی  عملکرد بهتر از مدل‌های زبان بزرگ‌تر با داده‌های آموزشی کمتر و اندازه‌های مدل کوچک‌تر - وبلاگ تحقیقاتی Google

برای پرداختن به این مسائل، HALP ابتدا یک قانون امتیازدهی اکتشافی ارزان قیمت را اعمال می‌کند که با اولویت تخلیه مطابقت دارد تا یک نمونه کوچک کاندید شناسایی شود. این فرآیند بر اساس نمونه گیری تصادفی کارآمد است که صف های اولویت دقیق را تقریب می زند. تابع اولویت برای تولید نمونه های کاندید در نظر گرفته شده است که با استفاده از الگوریتم های تنظیم شده دستی موجود، به عنوان مثال، LRU، سریع محاسبه شود. با این حال، این قابل تنظیم است تا با ویرایش یک تابع هزینه ساده، سایر اکتشافی‌های جایگزین حافظه پنهان را تقریبی کند. بر خلاف کار قبلی، که در آن از تصادفی سازی برای تقریب با کارایی استفاده شد، HALP نیز متکی است بر روی تصادفی سازی ذاتی در داوطلبان نمونه گیری در طول مراحل زمانی برای ارائه تنوع اکتشافی لازم در داوطلبان نمونه برای آموزش و استنباط.

مورد نهایی اخراج شده از بین نامزدهای ارائه شده، معادل بهترین نمونه رتبه بندی شده انتخاب می شود، که مربوط به حداکثر کردن پیش بینی شده است. امتیاز اولویت با توجه به مدل پاداش عصبی. همان مجموعه ای از نامزدهای مورد استفاده برای تصمیم گیری های اخراج نیز برای ساخت پرس و جوهای ترجیحی زوجی برای بازخورد خودکار استفاده می شود، که به به حداقل رساندن انحراف آموزشی و استنتاج بین نمونه ها کمک می کند.

مروری بر فرآیند دو مرحله‌ای که برای هر تصمیم اخراج درخواست می‌شود.

یادگیری ترجیحی آنلاین با بازخورد خودکار

مدل پاداش با استفاده از بازخورد آنلاین آموخته می‌شود، که براساس برچسب‌های ترجیحی اختصاص داده شده به‌طور خودکار است که نشان می‌دهد، هر جا که امکان پذیر باشد، ترتیب اولویت‌های رتبه‌بندی شده برای زمان صرف شده برای دریافت دسترسی‌های مجدد در آینده، از یک عکس فوری معین در زمان در میان هر نمونه پرس و جو شروع می‌شود. موارد. این شبیه به سیاست بهینه اوراکل است که در هر زمان، آیتمی را با دورترین دسترسی آینده از همه آیتم‌های موجود در حافظه پنهان خارج می‌کند.

تولید بازخورد خودکار برای یادگیری مدل پاداش.

برای آموزنده کردن این فرآیند بازخورد، HALP جستارهای ترجیحی زوجی را می سازد که به احتمال زیاد برای تصمیمات اخراج مرتبط هستند. در هماهنگی با عملیات معمول حافظه پنهان، HALP تعداد کمی از جستارهای ترجیحی زوجی را هنگام اتخاذ هر تصمیم اخراج صادر می کند و آنها را به مجموعه ای از آنها اضافه می کند. مقایسه های در انتظار برچسب‌های این مقایسه‌های معلق فقط در یک زمان تصادفی در آینده قابل حل هستند. برای فعالیت آنلاین، HALP همچنین پس از هر درخواست جستجو، حسابداری اضافی را انجام می دهد تا مقایسه های معلق را که می تواند به صورت تدریجی پس از درخواست فعلی برچسب گذاری شود، پردازش کند. HALP بافر مقایسه معلق را با هر عنصر درگیر در مقایسه فهرست‌بندی می‌کند و حافظه مصرف‌شده توسط مقایسه‌های قدیمی را بازیافت می‌کند (هیچ‌کدام از آنها ممکن است دسترسی مجدد پیدا کنند) تا اطمینان حاصل شود که سربار حافظه مرتبط با تولید بازخورد در طول زمان محدود باقی می‌ماند.

نمای کلی تمام اجزای اصلی در HALP.
مطالب پیشنهادی  پیشرفت‌های اخیر در پیش‌بینی افق طولانی - وبلاگ هوش مصنوعی گوگل

نتایج: تأثیر بر CDN YouTube

از طریق تجزیه و تحلیل تجربی، ما نشان می‌دهیم که HALP به طور مطلوب با سیاست‌های کش مدرن در ردیابی‌های معیار عمومی از نظر نرخ از دست دادن حافظه پنهان مقایسه می‌شود. با این حال، در حالی که معیارهای عمومی ابزار مفیدی هستند، به ندرت برای ثبت همه الگوهای استفاده در سراسر جهان در طول زمان کافی هستند، بدون اینکه به پیکربندی‌های سخت‌افزاری متنوعی که قبلاً استفاده کرده‌ایم اشاره کنیم.

تا همین اواخر، سرورهای یوتیوب از یک نوع LRU بهینه برای حذف حافظه پنهان استفاده می کردند. HALP خروجی/ورودی حافظه YouTube را افزایش می‌دهد – نسبت کل خروجی پهنای باند ارائه‌شده توسط CDN به مقدار مصرف شده برای بازیابی (ورود) به دلیل از دست دادن حافظه پنهان – تقریباً 12٪ و نرخ ضربه به حافظه تا 6٪. این امر تأخیر را برای کاربران کاهش می‌دهد، زیرا خواندن حافظه سریع‌تر از خواندن دیسک است، و همچنین با محافظت از دیسک‌ها در برابر ترافیک، ظرفیت خروجی ماشین‌های محدود به دیسک را بهبود می‌بخشد.

شکل زیر کاهش بصری قانع‌کننده‌ای را در نسبت بایت از دست رفته در روزهای پس از عرضه نهایی HALP در CDN YouTube نشان می‌دهد، که اکنون محتوای بیشتری را از درون حافظه پنهان با تأخیر کمتر به کاربر نهایی ارائه می‌کند و بدون نیاز به متوسل شدن به بازیابی گران تر که هزینه های عملیاتی را افزایش می دهد.

نسبت حذف بایت YouTube در سراسر جهان قبل و بعد از عرضه (خط چین عمودی).

بهبود عملکرد جمعی همچنان می تواند رگرسیون های مهم را پنهان کند. علاوه بر اندازه‌گیری تأثیر کلی، ما همچنین یک تحلیل در مقاله انجام می‌دهیم تا با استفاده از تجزیه و تحلیل سطح ماشین، تأثیر آن را بر روی قفسه‌های مختلف درک کنیم و آن را بسیار مثبت بدانیم.

نتیجه

ما یک چارچوب پیشرفته و پیشرفته برای حذف حافظه پنهان را معرفی کردیم که بر اساس پاداش‌های آموخته شده است و از یادگیری ترجیحی با بازخورد خودکار استفاده می‌کند. به دلیل انتخاب های طراحی آن، HALP می تواند به روشی مشابه هر خط مشی حافظه پنهان دیگر بدون نیاز به مدیریت جداگانه نمونه های برچسب گذاری شده، روش آموزشی و نسخه های مدل به عنوان خطوط لوله آفلاین اضافی مشترک در اکثر سیستم های یادگیری ماشین، به کار گرفته شود. بنابراین، در مقایسه با سایر الگوریتم‌های کلاسیک، تنها هزینه اضافی کمی را متحمل می‌شود، اما این مزیت را دارد که می‌تواند از ویژگی‌های اضافی برای اتخاذ تصمیم‌های اخراج و سازگاری مداوم با الگوهای دسترسی در حال تغییر استفاده کند.

این اولین استقرار در مقیاس بزرگ از یک سیاست حافظه پنهان آموخته شده در یک CDN است که به طور گسترده استفاده می شود و به شدت قاچاق می شود، و به طور قابل توجهی کارایی زیرساخت CDN را بهبود می بخشد و همچنین کیفیت بهتری از تجربه را به کاربران ارائه می دهد.

سپاسگزاریها

Ramki Gummadi اکنون بخشی از Google DeepMind است. مایلیم از جان گیلارد برای کمک به تصاویر و ریچارد اسکلر برای بازخورد در مورد این پست تشکر کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور