یک معماری تماما MLP برای پیش‌بینی سری‌های زمانی – وبلاگ تحقیقاتی گوگل

پیش‌بینی سری‌های زمانی برای کاربردهای مختلف دنیای واقعی، از پیش‌بینی تقاضا گرفته تا پیش‌بینی گسترش بیماری همه‌گیر، حیاتی است. در پیش‌بینی سری‌های زمانی چند متغیره (پیش‌بینی چند متغیر به طور همزمان)، می‌توان روش‌های موجود را به دو دسته تقسیم کرد: مدل‌های تک متغیره و مدل‌های چند متغیره. مدل‌های تک متغیره بر تعاملات بین سری یا الگوهای زمانی تمرکز می‌کنند که روندها و الگوهای فصلی را در یک سری زمانی با یک متغیر واحد در بر می‌گیرد. نمونه هایی از این روندها و الگوهای فصلی ممکن است نحوه افزایش نرخ وام مسکن به دلیل تورم و نحوه اوج گرفتن ترافیک در ساعات شلوغی باشد. علاوه بر الگوهای بین سری، مدل‌های چند متغیره، ویژگی‌های درون سری را پردازش می‌کنند که به اطلاعات متقابل معروف هستند، که به ویژه زمانی مفید است که یک سری نشانگر پیشرفته سری دیگر باشد. به عنوان مثال، افزایش وزن بدن ممکن است باعث افزایش فشار خون شود و افزایش قیمت یک محصول ممکن است منجر به کاهش فروش شود. مدل‌های چند متغیره اخیراً به راه‌حل‌های محبوبی برای پیش‌بینی چند متغیره تبدیل شده‌اند، زیرا متخصصان معتقدند توانایی آنها در مدیریت اطلاعات متقابل ممکن است به عملکرد بهتر منجر شود.

در سال‌های اخیر، معماری‌های مبتنی بر ترانسفورماتور یادگیری عمیق به دلیل عملکرد برتر آنها در وظایف توالی، به یک انتخاب محبوب برای مدل‌های پیش‌بینی چند متغیره تبدیل شده‌اند. با این حال، مدل‌های چند متغیره پیشرفته به‌طور شگفت‌انگیزی بدتر از مدل‌های خطی تک متغیره ساده در معیارهای پیش‌بینی بلندمدت رایج، مانند دمای ترانسفورماتور برق (ETT)، الکتریسیته، ترافیک و آب‌وهوا عمل می‌کنند. این نتایج دو سوال را ایجاد می کند:

  • آیا اطلاعات متقابل برای پیش‌بینی سری‌های زمانی مفید است؟
  • وقتی اطلاعات متقابل مفید نیست، آیا مدل‌های چند متغیره همچنان می‌توانند به خوبی مدل‌های تک متغیره عمل کنند؟

در “TSMixer: یک معماری تمام MLP برای پیش بینی سری های زمانی”، ما مزایای مدل های خطی تک متغیره را تجزیه و تحلیل کرده و اثربخشی آنها را آشکار می کنیم. بینش حاصل از این تجزیه و تحلیل ما را به توسعه Time-Series Mixer (TSMixer) هدایت می‌کند، یک مدل چند متغیره پیشرفته که از ویژگی‌های مدل خطی استفاده می‌کند و در معیارهای پیش‌بینی بلندمدت به خوبی عمل می‌کند. تا آنجا که ما می دانیم، TSMixer اولین مدل چند متغیره است که به خوبی مدل های تک متغیره پیشرفته را در معیارهای پیش بینی بلندمدت عمل می کند، جایی که نشان می دهیم اطلاعات متقاطع سود کمتری دارد. برای نشان دادن اهمیت اطلاعات متقابل، ما یک برنامه کاربردی دنیای واقعی چالش برانگیزتر، M5 را ارزیابی می کنیم. در نهایت، نتایج تجربی نشان می‌دهد که TSMixer از مدل‌های پیشرفته‌تر مانند PatchTST، Fedformer، Autoformer، DeepAR و TFT بهتر عمل می‌کند.

معماری TSMixer

یک تفاوت اساسی بین مدل های خطی و ترانسفورماتورها در نحوه گرفتن الگوهای زمانی است. از یک طرف، مدل‌های خطی وزن‌های ثابت و وابسته به زمان را برای گرفتن الگوهای زمانی استاتیک اعمال می‌کنند و قادر به پردازش اطلاعات متقاطع نیستند. از سوی دیگر، ترانسفورماتورها از مکانیسم‌های توجهی استفاده می‌کنند که وزن‌های دینامیکی و وابسته به داده را در هر مرحله زمانی اعمال می‌کنند، الگوهای زمانی پویا را می‌گیرند و آنها را قادر می‌سازند اطلاعات متقاطع را پردازش کنند.

در تجزیه و تحلیل ما، نشان می‌دهیم که تحت مفروضات رایج الگوهای زمانی، مدل‌های خطی راه‌حل‌های ساده‌ای برای بازیابی کامل سری‌های زمانی یا قرار دادن مرزهای خطا دارند، به این معنی که آنها راه‌حل‌های عالی برای یادگیری مؤثرتر الگوهای زمانی استاتیک سری‌های زمانی تک متغیره هستند. در مقابل، یافتن راه‌حل‌های مشابه برای مکانیسم‌های توجه امری بی‌اهمیت است، زیرا وزن‌های اعمال شده برای هر مرحله زمانی پویا هستند. در نتیجه، ما یک معماری جدید را با جایگزین کردن لایه‌های توجه ترانسفورماتور با لایه‌های خطی توسعه می‌دهیم. مدل TSMixer به دست آمده، که شبیه به روش MLP-Mixer بینایی کامپیوتری است، بین کاربردهای پرسپترون چند لایه در جهات مختلف جایگزین می شود که ما آن را می نامیم. اختلاط زمان و ترکیب ویژگی ها، به ترتیب. همانطور که در شکل زیر نشان داده شده است، معماری TSMixer به طور موثر هم الگوهای زمانی و هم اطلاعات متقابل را ثبت می کند. طرح‌های باقی‌مانده تضمین می‌کنند که TSMixer ظرفیت مدل‌های خطی زمانی را حفظ می‌کند در حالی که همچنان قادر به بهره‌برداری از اطلاعات متقابل است.

معماری بلوک ترانسفورماتور و بلوک TSMixer. TSMixer لایه توجه چند سر را با زمان اختلاط جایگزین می کند، یک مدل خطی که در بعد زمان اعمال می شود.

مقایسه بین وابسته به داده (مکانیسم های توجه) و وابسته به زمان (مدل های خطی). این نمونه ای از پیش بینی مرحله زمانی بعدی با یادگیری وزن های سه مرحله زمانی قبلی است.

ارزیابی معیارهای پیش‌بینی بلندمدت

ما TSMixer را با استفاده از هفت مجموعه داده پیش‌بینی بلندمدت محبوب (ETTm1، ETTm2، ETTh1، ETTh2، برق، ترافیک و آب‌وهوا) ارزیابی می‌کنیم، جایی که تحقیقات اخیر نشان داده است که مدل‌های خطی تک متغیره از مدل‌های چند متغیره پیشرفته با حاشیه‌های زیاد بهتر عمل می‌کنند. ما TSMixer را با مدل‌های چند متغیره پیشرفته (TFT، FEDformer، Autoformer، Informer) و مدل‌های تک متغیره، از جمله مدل‌های خطی و PatchTST مقایسه می‌کنیم. شکل زیر میانگین بهبود میانگین مربعات خطا (MSE) توسط TSMixer را در مقایسه با سایرین نشان می دهد. میانگین در میان مجموعه داده ها و افق های پیش بینی چندگانه محاسبه می شود. ما نشان می‌دهیم که TSMixer به طور قابل‌توجهی بهتر از سایر مدل‌های چند متغیره عمل می‌کند و عملکردی برابر با مدل‌های تک متغیره پیشرفته دارد. این نتایج نشان می‌دهد که مدل‌های چند متغیره توانایی اجرای مدل‌های تک متغیره را نیز دارند.

میانگین بهبود MSE TSMixer در مقایسه با سایر خطوط پایه. نوارهای قرمز روش‌های چند متغیره و نوارهای آبی روش‌های تک متغیره را نشان می‌دهند. TSMixer نسبت به سایر مدل های چند متغیره پیشرفت قابل توجهی دارد و نتایج قابل مقایسه با مدل های تک متغیره را به دست می آورد.

مطالعه ابلیشن

ما یک مطالعه فرسایشی برای مقایسه TSMixer با TMix-Only انجام دادیم، یک نوع TSMixer که فقط از لایه‌های اختلاط زمانی تشکیل شده است. نتایج نشان می‌دهد که TMix-Only تقریباً مانند TSMixer عمل می‌کند، به این معنی که لایه‌های اختلاط ویژگی‌های اضافی عملکرد را بهبود نمی‌بخشد و تأیید می‌کند که اطلاعات متقابل در معیارهای محبوب کمتر سودمند است. نتایج عملکرد مدل تک متغیره برتر نشان داده شده در تحقیقات قبلی را تایید می کند. با این حال، معیارهای پیش‌بینی بلندمدت موجود به خوبی نشان‌دهنده نیاز به اطلاعات متقاطع در برخی از برنامه‌های کاربردی دنیای واقعی نیست که سری‌های زمانی ممکن است متناوب یا پراکنده باشند، بنابراین الگوهای زمانی ممکن است برای پیش‌بینی کافی نباشند. بنابراین، ممکن است ارزیابی مدل‌های پیش‌بینی چند متغیره صرفاً بر اساس این معیارها نامناسب باشد.

ارزیابی روی M5: اثربخشی اطلاعات متقابل

برای نشان دادن بیشتر مزایای مدل‌های چند متغیره، ما TSMixer را بر اساس معیار چالش‌برانگیز M5 ارزیابی می‌کنیم، یک مجموعه داده خرده‌فروشی در مقیاس بزرگ که شامل تعاملات متقابل متغیر مهم است. M5 حاوی اطلاعات 30490 محصول است که طی 5 سال جمع آوری شده است. هر توضیح محصول شامل داده‌های سری زمانی، مانند فروش روزانه، قیمت فروش، اطلاعات رویداد تبلیغاتی، و ویژگی‌های ثابت (غیر سری زمانی)، مانند مکان فروشگاه و دسته محصول است. هدف پیش بینی فروش روزانه هر محصول برای 28 روز آینده است که با استفاده از ریشه وزنی میانگین مربعات خطای مقیاس شده (WRMSSE) از رقابت M5 ارزیابی می شود. ماهیت پیچیده خرده‌فروشی، پیش‌بینی صرفاً با استفاده از مدل‌های تک متغیره که بر الگوهای زمانی تمرکز دارند، چالش برانگیزتر می‌کند، بنابراین مدل‌های چند متغیره با اطلاعات متقابل متغیر و حتی ویژگی‌های کمکی ضروری‌تر هستند.

اول، ما TSMixer را تنها با در نظر گرفتن داده های تاریخی، مانند فروش روزانه و قیمت های فروش تاریخی، با روش های دیگر مقایسه می کنیم. نتایج نشان می‌دهد که مدل‌های چند متغیره عملکرد قابل‌توجهی از مدل‌های تک متغیره دارند که نشان‌دهنده سودمندی اطلاعات متقابل است. و در میان تمام روش های مقایسه شده، TSMixer به طور موثر از اطلاعات متقابل استفاده می کند و بهترین عملکرد را به دست می آورد.

علاوه بر این، برای استفاده از اطلاعات بیشتر، مانند ویژگی‌های ثابت (مثلاً مکان فروشگاه، دسته محصول) و سری‌های زمانی آینده (مثلاً یک رویداد تبلیغاتی برنامه‌ریزی‌شده در روزهای آینده) ارائه‌شده در M5، ما یک طرح اصلی برای گسترش TSMixer پیشنهاد می‌کنیم. TSMixer توسعه‌یافته انواع مختلف ویژگی‌ها را در طول یکسان تراز می‌کند و سپس چندین لایه اختلاط را روی ویژگی‌های به هم پیوسته اعمال می‌کند تا پیش‌بینی کند. معماری توسعه‌یافته TSMixer از مدل‌های رایج در کاربردهای صنعتی، از جمله DeepAR و TFT بهتر عمل می‌کند و پتانسیل قوی خود را برای تأثیرگذاری در دنیای واقعی نشان می‌دهد.

معماری TSMixer توسعه یافته. در مرحله اول (مرحله تراز)، انواع مختلف ویژگی ها را قبل از الحاق آنها به یک طول تراز می کند. در مرحله دوم (مرحله اختلاط) چندین لایه اختلاط مشروط با ویژگی های استاتیک را اعمال می کند.

WRMSSE در M5. سه روش اول (آبی) مدل های تک متغیره هستند. سه روش میانی (نارنجی) مدل های چند متغیره هستند که فقط ویژگی های تاریخی را در نظر می گیرند. سه روش آخر (قرمز) مدل های چند متغیره ای هستند که ویژگی های تاریخی، آینده و ایستا را در نظر می گیرند.

نتیجه

ما TSMixer، یک مدل چند متغیره پیشرفته را ارائه می‌کنیم که از ویژگی‌های مدل خطی استفاده می‌کند و همچنین مدل‌های تک متغیره پیشرفته را در معیارهای پیش‌بینی بلندمدت اجرا می‌کند. TSMixer با ارائه بینشی در مورد اهمیت اطلاعات متقابل و کمکی در سناریوهای دنیای واقعی، امکانات جدیدی برای توسعه معماری‌های پیش‌بینی سری‌های زمانی ایجاد می‌کند. نتایج تجربی نیاز به در نظر گرفتن معیارهای واقعی‌تر برای مدل‌های پیش‌بینی چند متغیره را در تحقیقات آینده نشان می‌دهد. ما امیدواریم که این کار الهام‌بخش کاوش بیشتر در زمینه پیش‌بینی سری‌های زمانی باشد و منجر به توسعه مدل‌های قوی‌تر و مؤثرتر شود که می‌توانند در برنامه‌های کاربردی دنیای واقعی اعمال شوند.

سپاسگزاریها

این تحقیق توسط Si-An Chen، Chun-Liang Li، Nate Yoder، Sercan O. Arik و Tomas Pfister انجام شد.

سئو PBN | خبر های جدید سئو و هک و سرور