یک مدل پایه فقط رمزگشا برای پیش‌بینی سری‌های زمانی

ارسال شده توسط Rajat Sen و Yichen Zhou، Google Research

پیش‌بینی سری‌های زمانی در حوزه‌های مختلفی مانند خرده‌فروشی، مالی، تولید، مراقبت‌های بهداشتی و علوم طبیعی در همه جا وجود دارد. برای مثال، در موارد استفاده خرده‌فروشی، مشاهده شده است که بهبود دقت پیش‌بینی تقاضا می‌تواند به طور معناداری هزینه‌های موجودی را کاهش دهد و درآمد را افزایش دهد. مدل‌های یادگیری عمیق (DL) به عنوان یک رویکرد محبوب برای پیش‌بینی داده‌های سری زمانی غنی، چند متغیره ظاهر شده‌اند، زیرا ثابت کرده‌اند که در تنظیمات مختلف عملکرد خوبی دارند (به عنوان مثال، مدل‌های DL در رقابت M5 عملکرد خوبی داشتند).

در عین حال، پیشرفت سریعی در مدل‌های زبان پایه بزرگی که برای کارهای پردازش زبان طبیعی (NLP) استفاده می‌شوند، مانند ترجمه، تولید افزوده‌شده بازیابی، و تکمیل کد وجود دارد. این مدل ها بر روی مقادیر زیادی آموزش دیده اند متنی داده‌های مشتق‌شده از منابع مختلف مانند خزیدن معمولی و کد منبع باز که به آن‌ها اجازه می‌دهد الگوها را در زبان‌ها شناسایی کنند. این باعث می شود که آنها ابزارهای بسیار قدرتمندی برای ضربه زدن به صفر باشند. به عنوان مثال، هنگامی که با بازیابی همراه شوند، می توانند به سؤالات مربوط به رویدادهای جاری پاسخ دهند و خلاصه کنند.

علی‌رغم اینکه پیش‌بینی‌کنندگان مبتنی بر DL تا حد زیادی از روش‌های سنتی بهتر عمل می‌کنند و پیشرفت‌هایی که در کاهش هزینه‌های آموزش و استنتاج حاصل شده است، با چالش‌هایی روبرو هستند: بیشتر معماری‌های DL قبل از اینکه مشتری بتواند مدل را در سری‌های زمانی جدید آزمایش کند، به چرخه‌های آموزشی طولانی و درگیر نیاز دارند. در مقابل، یک مدل پایه برای پیش‌بینی سری‌های زمانی، می‌تواند پیش‌بینی‌های خوب و مناسبی را در مورد داده‌های سری‌های زمانی دیده نشده و بدون آموزش اضافی ارائه دهد، و کاربران را قادر می‌سازد تا روی پیش‌بینی‌های اصلاح‌شده برای کارهای پایین‌دستی واقعی مانند برنامه‌ریزی تقاضای خرده‌فروشی تمرکز کنند. .

برای این منظور، در «مدل پایه فقط رمزگشا برای پیش‌بینی سری‌های زمانی»، TimesFM را معرفی می‌کنیم، یک مدل پیش‌بینی واحد که از قبل بر روی مجموعه‌ای از سری زمانی بزرگ از 100 میلیارد نقطه زمانی دنیای واقعی آموزش داده شده است. در مقایسه با آخرین مدل‌های زبان بزرگ (LLM)، TimesFM بسیار کوچک‌تر است (200M پارامتر)، با این حال نشان می‌دهیم که حتی در چنین مقیاس‌هایی، عملکرد صفر شات آن در انواع مجموعه داده‌های دیده نشده از حوزه‌های مختلف و دانه‌بندی‌های زمانی نزدیک به رویکردهای نظارتی پیشرفته که به صراحت بر روی این مجموعه داده ها آموزش داده شده اند. در اواخر امسال، قصد داریم این مدل را برای مشتریان خارجی در Google Cloud Vertex AI در دسترس قرار دهیم.

LLM ها معمولاً به روشی فقط رمزگشا آموزش داده می شوند که شامل سه مرحله است. ابتدا متن به زیرکلمه هایی به نام نشانه ها تقسیم می شود. سپس، توکن‌ها به لایه‌های ترانسفورماتور علّی انباشته وارد می‌شوند که خروجی مربوط به هر نشانه ورودی را تولید می‌کنند (نمی‌تواند به نشانه‌های آینده توجه کند). در نهایت، خروجی مربوط به منتوکن -ام تمام اطلاعات توکن های قبلی را خلاصه می کند و (من+1)-th token. در طول استنتاج، LLM توکن خروجی را در یک زمان تولید می کند. به عنوان مثال، هنگامی که از شما خواسته می شود “What is the France? پایتخت؟”، ممکن است نشانه “The” را ایجاد کند، سپس شرط “What is the France” پایتخت است؟ برای تولید نماد بعدی «سرمایه» و به همین ترتیب تا زمانی که پاسخ کامل را ایجاد کند: «پایتخت فرانسه پاریس است».

یک مدل پایه برای پیش‌بینی سری‌های زمانی باید با طول‌های بافت متغیر (آنچه مشاهده می‌کنیم) و افق (آنچه که مدل را برای پیش‌بینی جستجو می‌کنیم) تطبیق دهد، در حالی که ظرفیت کافی برای رمزگذاری همه الگوها از مجموعه داده‌های پیش‌آموزشی بزرگ را داشته باشد. مشابه LLMها، ما از لایه‌های ترانسفورماتور انباشته (لایه‌های توجه به خود و پیش‌خور) به‌عنوان بلوک‌های اصلی برای مدل TimesFM استفاده می‌کنیم. در زمینه پیش‌بینی سری‌های زمانی، ما یک پچ (گروهی از نقاط زمانی پیوسته) را به عنوان نشانه‌ای در نظر می‌گیریم که توسط یک کار پیش‌بینی افق طولانی اخیر رایج شده است. سپس وظیفه پیش بینی (من+1)-امین پچ از نقاط زمانی با توجه به منخروجی -ام در انتهای لایه های ترانسفورماتور انباشته شده.

با این حال، چندین تفاوت کلیدی با مدل های زبانی وجود دارد. در مرحله اول، ما به یک بلوک پرسپترون چند لایه با اتصالات باقیمانده نیاز داریم تا یک پچ از سری های زمانی را به یک توکن تبدیل کنیم که می تواند به لایه های ترانسفورماتور به همراه رمزگذاری های موقعیتی (PE) وارد شود. برای آن، ما از یک بلوک باقیمانده مشابه کار قبلی خود در پیش‌بینی افق بلند استفاده می‌کنیم. ثانیاً، در انتهای دیگر، یک نشانه خروجی از ترانسفورماتور پشته‌ای می‌تواند برای پیش‌بینی طول بیشتر نقاط زمانی بعدی نسبت به طول وصله ورودی استفاده شود، یعنی طول وصله خروجی می‌تواند بزرگ‌تر از طول وصله ورودی باشد.

یک سری زمانی با طول 512 نقطه زمانی را در نظر بگیرید که برای آموزش یک مدل TimesFM با طول وصله ورودی 32 و طول وصله خروجی 128 استفاده می شود. در طول آموزش، مدل به طور همزمان آموزش داده می شود تا از 32 نقطه زمانی اول برای پیش بینی 128 بعدی استفاده کند. نقاط زمانی، 64 نقطه زمانی اول برای پیش بینی نقاط زمانی 65 تا 192، اولین 96 نقطه زمانی برای پیش بینی نقاط زمانی 97 تا 224 و غیره. در طول استنتاج، فرض کنید به مدل یک سری زمانی جدید به طول 256 داده می شود و وظیفه پیش بینی 256 نقطه زمانی بعدی در آینده را دارد. این مدل ابتدا پیش‌بینی‌های آینده را برای نقاط زمانی 257 تا 384 ایجاد می‌کند، سپس ورودی طول اولیه 256 به اضافه خروجی تولید شده را برای ایجاد نقاط زمانی 385 تا 512 شرط می‌کند. از سوی دیگر، اگر در مدل ما طول وصله خروجی باشد. برابر طول پچ ورودی 32 بود، پس برای همان کار باید به جای دو مرحله بالا، هشت مرحله نسل را طی کنیم. این احتمال انباشته شدن خطاهای بیشتر را افزایش می دهد و بنابراین، در عمل، می بینیم که طول وصله خروجی بیشتر عملکرد بهتری را برای پیش بینی افق بلند به همراه دارد.

معماری TimesFM

داده های پیش آموزشی

درست مانند LLM ها با توکن های بیشتر، TimesFM به حجم زیادی از داده های سری زمانی قانونی برای یادگیری و بهبود نیاز دارد. ما زمان زیادی را صرف ایجاد و ارزیابی مجموعه داده‌های آموزشی خود کرده‌ایم، و موارد زیر بهترین نتیجه را پیدا کرده‌اند:

داده های مصنوعی به اصول اولیه کمک می کند. داده های سری زمانی مصنوعی معنی دار را می توان با استفاده از مدل های آماری یا شبیه سازی های فیزیکی تولید کرد. این الگوهای زمانی اولیه می توانند دستور زبان پیش بینی سری های زمانی را به مدل آموزش دهند.

داده های دنیای واقعی طعم دنیای واقعی را اضافه می کند. مجموعه داده‌های سری زمانی عمومی موجود را بررسی می‌کنیم و به طور انتخابی مجموعه بزرگی از 100 میلیارد نقطه زمانی را گرد هم می‌آوریم. در میان این مجموعه داده‌ها، Google Trends و Wikipedia Pageviews وجود دارند که علاقه‌مندی مردم را دنبال می‌کنند و روندها و الگوهای بسیاری دیگر از سری‌های زمانی دنیای واقعی را به خوبی منعکس می‌کنند. این به TimesFM کمک می‌کند تا تصویر بزرگ‌تر را درک کند و در صورت ارائه زمینه‌های خاص دامنه که در طول آموزش دیده نمی‌شوند، بهتر تعمیم دهد.

نتایج ارزیابی صفر شات

ما شات صفر TimesFM را بر روی داده‌هایی که در طول آموزش دیده نمی‌شوند با استفاده از معیارهای سری زمانی محبوب ارزیابی می‌کنیم. مشاهده می‌کنیم که TimesFM بهتر از بسیاری از روش‌های آماری مانند ARIMA، ETS عمل می‌کند و می‌تواند با مدل‌های قدرتمند DL مانند DeepAR، PatchTST که قبلا به صراحت آموزش داده شده است در سری زمانی هدف

ما از آرشیو پیش‌بینی موناش برای ارزیابی عملکرد خارج از جعبه TimesFM استفاده کردیم. این آرشیو شامل ده‌ها هزار سری زمانی از حوزه‌های مختلف مانند ترافیک، آب‌وهوا و پیش‌بینی تقاضا است که فرکانس‌هایی از چند دقیقه تا داده‌های سالانه را پوشش می‌دهد. با پیروی از ادبیات موجود، میانگین خطای مطلق (MAE) را به‌طور مناسب بررسی می‌کنیم تا بتوان آن را در میان مجموعه‌های داده میانگین‌گیری کرد. می بینیم که TimesFM صفر شات (ZS) بهتر از بسیاری از رویکردهای نظارت شده، از جمله مدل های یادگیری عمیق اخیر است. ما همچنین TimesFM را با GPT-3.5 برای پیش‌بینی با استفاده از تکنیک تحریک خاص پیشنهاد شده توسط llmtime (ZS) مقایسه می‌کنیم. ما نشان می‌دهیم که TimesFM با وجود اینکه مرتبه‌ای کوچک‌تر است، بهتر از llmtime (ZS) عمل می‌کند.

مقیاس MAE (هرچه کمتر بهتر) TimesFM (ZS) در برابر سایر رویکردهای نظارت شده و صفر شات در مجموعه داده های موناش.

بیشتر مجموعه داده های موناش افق کوتاه یا متوسط هستند، یعنی طول پیش بینی خیلی طولانی نیست. ما همچنین TimesFM را بر روی معیارهای محبوب برای پیش‌بینی افق طولانی در برابر آخرین پیشرفته‌ترین PatchTST (و سایر خطوط پایه پیش‌بینی افق بلند) آزمایش می‌کنیم. در شکل بعدی، MAE را بر روی مجموعه داده های ETT برای پیش بینی 96 و 192 نقاط زمانی در آینده رسم می کنیم. متریک در آخرین پنجره آزمایشی هر مجموعه داده محاسبه شده است (همانطور که توسط مقاله llmtime انجام شده است). می بینیم که TimesFM نه تنها از عملکرد llmtime (ZS) پیشی می گیرد، بلکه با مدل PatchTST نظارت شده که به صراحت در مجموعه داده های مربوطه آموزش داده شده است، مطابقت دارد.

آخرین پنجره MAE (هرچه کمتر، بهتر) TimesFM (ZS) در مقابل خطوط پایه پیش‌بینی افق بلند مدت (llmtime) در مجموعه داده‌های ETT.

نتیجه

ما یک مدل پایه فقط رمزگشا را برای پیش‌بینی سری‌های زمانی با استفاده از مجموعه پیش‌آموزشی بزرگی از 100B نقاط زمانی دنیای واقعی آموزش می‌دهیم، که اکثر آن‌ها داده‌های سری زمانی علاقه‌مند به جستجو مشتق شده از Google Trends و بازدید از صفحه از ویکی‌پدیا بودند. ما نشان می‌دهیم که حتی یک مدل نسبتاً کوچک 200M با پارامتر از پیش آموزش‌دیده که از معماری TimesFM ما استفاده می‌کند، عملکرد چشمگیر صفر شات را در انواع معیارهای عمومی از حوزه‌ها و دانه‌بندی‌های مختلف نشان می‌دهد.

سپاسگزاریها

این اثر حاصل همکاری چند نفر در سرتاسر Google Research و Google Cloud است، از جمله (به ترتیب حروف الفبا): Abhimanyu Das، Weihao Kong، Andrew Leach، Mike Lawrence، Alex Martin، Rajat Sen، Yang Yang، Skander Hannachi، Ivan کوزنتسوف و یچن ژو.

سئو PBN | خبر های جدید سئو و هک و سرور