پیشبینی سریهای زمانی در حوزههای مختلفی مانند خردهفروشی، مالی، تولید، مراقبتهای بهداشتی و علوم طبیعی در همه جا وجود دارد. برای مثال، در موارد استفاده خردهفروشی، مشاهده شده است که بهبود دقت پیشبینی تقاضا میتواند به طور معناداری هزینههای موجودی را کاهش دهد و درآمد را افزایش دهد. مدلهای یادگیری عمیق (DL) به عنوان یک رویکرد محبوب برای پیشبینی دادههای سری زمانی غنی، چند متغیره ظاهر شدهاند، زیرا ثابت کردهاند که در تنظیمات مختلف عملکرد خوبی دارند (به عنوان مثال، مدلهای DL در رقابت M5 عملکرد خوبی داشتند).
در عین حال، پیشرفت سریعی در مدلهای زبان پایه بزرگی که برای کارهای پردازش زبان طبیعی (NLP) استفاده میشوند، مانند ترجمه، تولید افزودهشده بازیابی، و تکمیل کد وجود دارد. این مدل ها بر روی مقادیر زیادی آموزش دیده اند متنی دادههای مشتقشده از منابع مختلف مانند خزیدن معمولی و کد منبع باز که به آنها اجازه میدهد الگوها را در زبانها شناسایی کنند. این باعث می شود که آنها ابزارهای بسیار قدرتمندی برای ضربه زدن به صفر باشند. به عنوان مثال، هنگامی که با بازیابی همراه شوند، می توانند به سؤالات مربوط به رویدادهای جاری پاسخ دهند و خلاصه کنند.
علیرغم اینکه پیشبینیکنندگان مبتنی بر DL تا حد زیادی از روشهای سنتی بهتر عمل میکنند و پیشرفتهایی که در کاهش هزینههای آموزش و استنتاج حاصل شده است، با چالشهایی روبرو هستند: بیشتر معماریهای DL قبل از اینکه مشتری بتواند مدل را در سریهای زمانی جدید آزمایش کند، به چرخههای آموزشی طولانی و درگیر نیاز دارند. در مقابل، یک مدل پایه برای پیشبینی سریهای زمانی، میتواند پیشبینیهای خوب و مناسبی را در مورد دادههای سریهای زمانی دیده نشده و بدون آموزش اضافی ارائه دهد، و کاربران را قادر میسازد تا روی پیشبینیهای اصلاحشده برای کارهای پاییندستی واقعی مانند برنامهریزی تقاضای خردهفروشی تمرکز کنند. .
برای این منظور، در «مدل پایه فقط رمزگشا برای پیشبینی سریهای زمانی»، TimesFM را معرفی میکنیم، یک مدل پیشبینی واحد که از قبل بر روی مجموعهای از سری زمانی بزرگ از 100 میلیارد نقطه زمانی دنیای واقعی آموزش داده شده است. در مقایسه با آخرین مدلهای زبان بزرگ (LLM)، TimesFM بسیار کوچکتر است (200M پارامتر)، با این حال نشان میدهیم که حتی در چنین مقیاسهایی، عملکرد صفر شات آن در انواع مجموعه دادههای دیده نشده از حوزههای مختلف و دانهبندیهای زمانی نزدیک به رویکردهای نظارتی پیشرفته که به صراحت بر روی این مجموعه داده ها آموزش داده شده اند. در اواخر امسال، قصد داریم این مدل را برای مشتریان خارجی در Google Cloud Vertex AI در دسترس قرار دهیم.
یک مدل پایه فقط رمزگشا برای پیشبینی سریهای زمانی
LLM ها معمولاً به روشی فقط رمزگشا آموزش داده می شوند که شامل سه مرحله است. ابتدا متن به زیرکلمه هایی به نام نشانه ها تقسیم می شود. سپس، توکنها به لایههای ترانسفورماتور علّی انباشته وارد میشوند که خروجی مربوط به هر نشانه ورودی را تولید میکنند (نمیتواند به نشانههای آینده توجه کند). در نهایت، خروجی مربوط به منتوکن -ام تمام اطلاعات توکن های قبلی را خلاصه می کند و (من+1)-th token. در طول استنتاج، LLM توکن خروجی را در یک زمان تولید می کند. به عنوان مثال، هنگامی که از شما خواسته می شود “What is the France? پایتخت؟”، ممکن است نشانه “The” را ایجاد کند، سپس شرط “What is the France” پایتخت است؟ برای تولید نماد بعدی «سرمایه» و به همین ترتیب تا زمانی که پاسخ کامل را ایجاد کند: «پایتخت فرانسه پاریس است».
یک مدل پایه برای پیشبینی سریهای زمانی باید با طولهای بافت متغیر (آنچه مشاهده میکنیم) و افق (آنچه که مدل را برای پیشبینی جستجو میکنیم) تطبیق دهد، در حالی که ظرفیت کافی برای رمزگذاری همه الگوها از مجموعه دادههای پیشآموزشی بزرگ را داشته باشد. مشابه LLMها، ما از لایههای ترانسفورماتور انباشته (لایههای توجه به خود و پیشخور) بهعنوان بلوکهای اصلی برای مدل TimesFM استفاده میکنیم. در زمینه پیشبینی سریهای زمانی، ما یک پچ (گروهی از نقاط زمانی پیوسته) را به عنوان نشانهای در نظر میگیریم که توسط یک کار پیشبینی افق طولانی اخیر رایج شده است. سپس وظیفه پیش بینی (من+1)-امین پچ از نقاط زمانی با توجه به منخروجی -ام در انتهای لایه های ترانسفورماتور انباشته شده.
با این حال، چندین تفاوت کلیدی با مدل های زبانی وجود دارد. در مرحله اول، ما به یک بلوک پرسپترون چند لایه با اتصالات باقیمانده نیاز داریم تا یک پچ از سری های زمانی را به یک توکن تبدیل کنیم که می تواند به لایه های ترانسفورماتور به همراه رمزگذاری های موقعیتی (PE) وارد شود. برای آن، ما از یک بلوک باقیمانده مشابه کار قبلی خود در پیشبینی افق بلند استفاده میکنیم. ثانیاً، در انتهای دیگر، یک نشانه خروجی از ترانسفورماتور پشتهای میتواند برای پیشبینی طول بیشتر نقاط زمانی بعدی نسبت به طول وصله ورودی استفاده شود، یعنی طول وصله خروجی میتواند بزرگتر از طول وصله ورودی باشد.
یک سری زمانی با طول 512 نقطه زمانی را در نظر بگیرید که برای آموزش یک مدل TimesFM با طول وصله ورودی 32 و طول وصله خروجی 128 استفاده می شود. در طول آموزش، مدل به طور همزمان آموزش داده می شود تا از 32 نقطه زمانی اول برای پیش بینی 128 بعدی استفاده کند. نقاط زمانی، 64 نقطه زمانی اول برای پیش بینی نقاط زمانی 65 تا 192، اولین 96 نقطه زمانی برای پیش بینی نقاط زمانی 97 تا 224 و غیره. در طول استنتاج، فرض کنید به مدل یک سری زمانی جدید به طول 256 داده می شود و وظیفه پیش بینی 256 نقطه زمانی بعدی در آینده را دارد. این مدل ابتدا پیشبینیهای آینده را برای نقاط زمانی 257 تا 384 ایجاد میکند، سپس ورودی طول اولیه 256 به اضافه خروجی تولید شده را برای ایجاد نقاط زمانی 385 تا 512 شرط میکند. از سوی دیگر، اگر در مدل ما طول وصله خروجی باشد. برابر طول پچ ورودی 32 بود، پس برای همان کار باید به جای دو مرحله بالا، هشت مرحله نسل را طی کنیم. این احتمال انباشته شدن خطاهای بیشتر را افزایش می دهد و بنابراین، در عمل، می بینیم که طول وصله خروجی بیشتر عملکرد بهتری را برای پیش بینی افق بلند به همراه دارد.
معماری TimesFM |
داده های پیش آموزشی
درست مانند LLM ها با توکن های بیشتر، TimesFM به حجم زیادی از داده های سری زمانی قانونی برای یادگیری و بهبود نیاز دارد. ما زمان زیادی را صرف ایجاد و ارزیابی مجموعه دادههای آموزشی خود کردهایم، و موارد زیر بهترین نتیجه را پیدا کردهاند:
داده های مصنوعی به اصول اولیه کمک می کند. داده های سری زمانی مصنوعی معنی دار را می توان با استفاده از مدل های آماری یا شبیه سازی های فیزیکی تولید کرد. این الگوهای زمانی اولیه می توانند دستور زبان پیش بینی سری های زمانی را به مدل آموزش دهند.
داده های دنیای واقعی طعم دنیای واقعی را اضافه می کند. مجموعه دادههای سری زمانی عمومی موجود را بررسی میکنیم و به طور انتخابی مجموعه بزرگی از 100 میلیارد نقطه زمانی را گرد هم میآوریم. در میان این مجموعه دادهها، Google Trends و Wikipedia Pageviews وجود دارند که علاقهمندی مردم را دنبال میکنند و روندها و الگوهای بسیاری دیگر از سریهای زمانی دنیای واقعی را به خوبی منعکس میکنند. این به TimesFM کمک میکند تا تصویر بزرگتر را درک کند و در صورت ارائه زمینههای خاص دامنه که در طول آموزش دیده نمیشوند، بهتر تعمیم دهد.
نتایج ارزیابی صفر شات
ما شات صفر TimesFM را بر روی دادههایی که در طول آموزش دیده نمیشوند با استفاده از معیارهای سری زمانی محبوب ارزیابی میکنیم. مشاهده میکنیم که TimesFM بهتر از بسیاری از روشهای آماری مانند ARIMA، ETS عمل میکند و میتواند با مدلهای قدرتمند DL مانند DeepAR، PatchTST که قبلا به صراحت آموزش داده شده است در سری زمانی هدف
ما از آرشیو پیشبینی موناش برای ارزیابی عملکرد خارج از جعبه TimesFM استفاده کردیم. این آرشیو شامل دهها هزار سری زمانی از حوزههای مختلف مانند ترافیک، آبوهوا و پیشبینی تقاضا است که فرکانسهایی از چند دقیقه تا دادههای سالانه را پوشش میدهد. با پیروی از ادبیات موجود، میانگین خطای مطلق (MAE) را بهطور مناسب بررسی میکنیم تا بتوان آن را در میان مجموعههای داده میانگینگیری کرد. می بینیم که TimesFM صفر شات (ZS) بهتر از بسیاری از رویکردهای نظارت شده، از جمله مدل های یادگیری عمیق اخیر است. ما همچنین TimesFM را با GPT-3.5 برای پیشبینی با استفاده از تکنیک تحریک خاص پیشنهاد شده توسط llmtime (ZS) مقایسه میکنیم. ما نشان میدهیم که TimesFM با وجود اینکه مرتبهای کوچکتر است، بهتر از llmtime (ZS) عمل میکند.
مقیاس MAE (هرچه کمتر بهتر) TimesFM (ZS) در برابر سایر رویکردهای نظارت شده و صفر شات در مجموعه داده های موناش. |
بیشتر مجموعه داده های موناش افق کوتاه یا متوسط هستند، یعنی طول پیش بینی خیلی طولانی نیست. ما همچنین TimesFM را بر روی معیارهای محبوب برای پیشبینی افق طولانی در برابر آخرین پیشرفتهترین PatchTST (و سایر خطوط پایه پیشبینی افق بلند) آزمایش میکنیم. در شکل بعدی، MAE را بر روی مجموعه داده های ETT برای پیش بینی 96 و 192 نقاط زمانی در آینده رسم می کنیم. متریک در آخرین پنجره آزمایشی هر مجموعه داده محاسبه شده است (همانطور که توسط مقاله llmtime انجام شده است). می بینیم که TimesFM نه تنها از عملکرد llmtime (ZS) پیشی می گیرد، بلکه با مدل PatchTST نظارت شده که به صراحت در مجموعه داده های مربوطه آموزش داده شده است، مطابقت دارد.
آخرین پنجره MAE (هرچه کمتر، بهتر) TimesFM (ZS) در مقابل خطوط پایه پیشبینی افق بلند مدت (llmtime) در مجموعه دادههای ETT. |
نتیجه
ما یک مدل پایه فقط رمزگشا را برای پیشبینی سریهای زمانی با استفاده از مجموعه پیشآموزشی بزرگی از 100B نقاط زمانی دنیای واقعی آموزش میدهیم، که اکثر آنها دادههای سری زمانی علاقهمند به جستجو مشتق شده از Google Trends و بازدید از صفحه از ویکیپدیا بودند. ما نشان میدهیم که حتی یک مدل نسبتاً کوچک 200M با پارامتر از پیش آموزشدیده که از معماری TimesFM ما استفاده میکند، عملکرد چشمگیر صفر شات را در انواع معیارهای عمومی از حوزهها و دانهبندیهای مختلف نشان میدهد.
سپاسگزاریها
این اثر حاصل همکاری چند نفر در سرتاسر Google Research و Google Cloud است، از جمله (به ترتیب حروف الفبا): Abhimanyu Das، Weihao Kong، Andrew Leach، Mike Lawrence، Alex Martin، Rajat Sen، Yang Yang، Skander Hannachi، Ivan کوزنتسوف و یچن ژو.