پیشبینی سریهای زمانی برای کاربردهای مختلف دنیای واقعی، از پیشبینی تقاضا گرفته تا پیشبینی گسترش بیماری همهگیر، حیاتی است. در پیشبینی سریهای زمانی چند متغیره (پیشبینی چند متغیر به طور همزمان)، میتوان روشهای موجود را به دو دسته تقسیم کرد: مدلهای تک متغیره و مدلهای چند متغیره. مدلهای تک متغیره بر تعاملات بین سری یا الگوهای زمانی تمرکز میکنند که روندها و الگوهای فصلی را در یک سری زمانی با یک متغیر واحد در بر میگیرد. نمونه هایی از این روندها و الگوهای فصلی ممکن است نحوه افزایش نرخ وام مسکن به دلیل تورم و نحوه اوج گرفتن ترافیک در ساعات شلوغی باشد. علاوه بر الگوهای بین سری، مدلهای چند متغیره، ویژگیهای درون سری را پردازش میکنند که به اطلاعات متقابل معروف هستند، که به ویژه زمانی مفید است که یک سری نشانگر پیشرفته سری دیگر باشد. به عنوان مثال، افزایش وزن بدن ممکن است باعث افزایش فشار خون شود و افزایش قیمت یک محصول ممکن است منجر به کاهش فروش شود. مدلهای چند متغیره اخیراً به راهحلهای محبوبی برای پیشبینی چند متغیره تبدیل شدهاند، زیرا متخصصان معتقدند توانایی آنها در مدیریت اطلاعات متقابل ممکن است به عملکرد بهتر منجر شود.
در سالهای اخیر، معماریهای مبتنی بر ترانسفورماتور یادگیری عمیق به دلیل عملکرد برتر آنها در وظایف توالی، به یک انتخاب محبوب برای مدلهای پیشبینی چند متغیره تبدیل شدهاند. با این حال، مدلهای چند متغیره پیشرفته بهطور شگفتانگیزی بدتر از مدلهای خطی تک متغیره ساده در معیارهای پیشبینی بلندمدت رایج، مانند دمای ترانسفورماتور برق (ETT)، الکتریسیته، ترافیک و آبوهوا عمل میکنند. این نتایج دو سوال را ایجاد می کند:
- آیا اطلاعات متقابل برای پیشبینی سریهای زمانی مفید است؟
- وقتی اطلاعات متقابل مفید نیست، آیا مدلهای چند متغیره همچنان میتوانند به خوبی مدلهای تک متغیره عمل کنند؟
در “TSMixer: یک معماری تمام MLP برای پیش بینی سری های زمانی”، ما مزایای مدل های خطی تک متغیره را تجزیه و تحلیل کرده و اثربخشی آنها را آشکار می کنیم. بینش حاصل از این تجزیه و تحلیل ما را به توسعه Time-Series Mixer (TSMixer) هدایت میکند، یک مدل چند متغیره پیشرفته که از ویژگیهای مدل خطی استفاده میکند و در معیارهای پیشبینی بلندمدت به خوبی عمل میکند. تا آنجا که ما می دانیم، TSMixer اولین مدل چند متغیره است که به خوبی مدل های تک متغیره پیشرفته را در معیارهای پیش بینی بلندمدت عمل می کند، جایی که نشان می دهیم اطلاعات متقاطع سود کمتری دارد. برای نشان دادن اهمیت اطلاعات متقابل، ما یک برنامه کاربردی دنیای واقعی چالش برانگیزتر، M5 را ارزیابی می کنیم. در نهایت، نتایج تجربی نشان میدهد که TSMixer از مدلهای پیشرفتهتر مانند PatchTST، Fedformer، Autoformer، DeepAR و TFT بهتر عمل میکند.
معماری TSMixer
یک تفاوت اساسی بین مدل های خطی و ترانسفورماتورها در نحوه گرفتن الگوهای زمانی است. از یک طرف، مدلهای خطی وزنهای ثابت و وابسته به زمان را برای گرفتن الگوهای زمانی استاتیک اعمال میکنند و قادر به پردازش اطلاعات متقاطع نیستند. از سوی دیگر، ترانسفورماتورها از مکانیسمهای توجهی استفاده میکنند که وزنهای دینامیکی و وابسته به داده را در هر مرحله زمانی اعمال میکنند، الگوهای زمانی پویا را میگیرند و آنها را قادر میسازند اطلاعات متقاطع را پردازش کنند.
در تجزیه و تحلیل ما، نشان میدهیم که تحت مفروضات رایج الگوهای زمانی، مدلهای خطی راهحلهای سادهای برای بازیابی کامل سریهای زمانی یا قرار دادن مرزهای خطا دارند، به این معنی که آنها راهحلهای عالی برای یادگیری مؤثرتر الگوهای زمانی استاتیک سریهای زمانی تک متغیره هستند. در مقابل، یافتن راهحلهای مشابه برای مکانیسمهای توجه امری بیاهمیت است، زیرا وزنهای اعمال شده برای هر مرحله زمانی پویا هستند. در نتیجه، ما یک معماری جدید را با جایگزین کردن لایههای توجه ترانسفورماتور با لایههای خطی توسعه میدهیم. مدل TSMixer به دست آمده، که شبیه به روش MLP-Mixer بینایی کامپیوتری است، بین کاربردهای پرسپترون چند لایه در جهات مختلف جایگزین می شود که ما آن را می نامیم. اختلاط زمان و ترکیب ویژگی ها، به ترتیب. همانطور که در شکل زیر نشان داده شده است، معماری TSMixer به طور موثر هم الگوهای زمانی و هم اطلاعات متقابل را ثبت می کند. طرحهای باقیمانده تضمین میکنند که TSMixer ظرفیت مدلهای خطی زمانی را حفظ میکند در حالی که همچنان قادر به بهرهبرداری از اطلاعات متقابل است.
![]() |
معماری بلوک ترانسفورماتور و بلوک TSMixer. TSMixer لایه توجه چند سر را با زمان اختلاط جایگزین می کند، یک مدل خطی که در بعد زمان اعمال می شود. |
![]() |
مقایسه بین وابسته به داده (مکانیسم های توجه) و وابسته به زمان (مدل های خطی). این نمونه ای از پیش بینی مرحله زمانی بعدی با یادگیری وزن های سه مرحله زمانی قبلی است. |
ارزیابی معیارهای پیشبینی بلندمدت
ما TSMixer را با استفاده از هفت مجموعه داده پیشبینی بلندمدت محبوب (ETTm1، ETTm2، ETTh1، ETTh2، برق، ترافیک و آبوهوا) ارزیابی میکنیم، جایی که تحقیقات اخیر نشان داده است که مدلهای خطی تک متغیره از مدلهای چند متغیره پیشرفته با حاشیههای زیاد بهتر عمل میکنند. ما TSMixer را با مدلهای چند متغیره پیشرفته (TFT، FEDformer، Autoformer، Informer) و مدلهای تک متغیره، از جمله مدلهای خطی و PatchTST مقایسه میکنیم. شکل زیر میانگین بهبود میانگین مربعات خطا (MSE) توسط TSMixer را در مقایسه با سایرین نشان می دهد. میانگین در میان مجموعه داده ها و افق های پیش بینی چندگانه محاسبه می شود. ما نشان میدهیم که TSMixer به طور قابلتوجهی بهتر از سایر مدلهای چند متغیره عمل میکند و عملکردی برابر با مدلهای تک متغیره پیشرفته دارد. این نتایج نشان میدهد که مدلهای چند متغیره توانایی اجرای مدلهای تک متغیره را نیز دارند.
![]() |
میانگین بهبود MSE TSMixer در مقایسه با سایر خطوط پایه. نوارهای قرمز روشهای چند متغیره و نوارهای آبی روشهای تک متغیره را نشان میدهند. TSMixer نسبت به سایر مدل های چند متغیره پیشرفت قابل توجهی دارد و نتایج قابل مقایسه با مدل های تک متغیره را به دست می آورد. |
مطالعه ابلیشن
ما یک مطالعه فرسایشی برای مقایسه TSMixer با TMix-Only انجام دادیم، یک نوع TSMixer که فقط از لایههای اختلاط زمانی تشکیل شده است. نتایج نشان میدهد که TMix-Only تقریباً مانند TSMixer عمل میکند، به این معنی که لایههای اختلاط ویژگیهای اضافی عملکرد را بهبود نمیبخشد و تأیید میکند که اطلاعات متقابل در معیارهای محبوب کمتر سودمند است. نتایج عملکرد مدل تک متغیره برتر نشان داده شده در تحقیقات قبلی را تایید می کند. با این حال، معیارهای پیشبینی بلندمدت موجود به خوبی نشاندهنده نیاز به اطلاعات متقاطع در برخی از برنامههای کاربردی دنیای واقعی نیست که سریهای زمانی ممکن است متناوب یا پراکنده باشند، بنابراین الگوهای زمانی ممکن است برای پیشبینی کافی نباشند. بنابراین، ممکن است ارزیابی مدلهای پیشبینی چند متغیره صرفاً بر اساس این معیارها نامناسب باشد.
ارزیابی روی M5: اثربخشی اطلاعات متقابل
برای نشان دادن بیشتر مزایای مدلهای چند متغیره، ما TSMixer را بر اساس معیار چالشبرانگیز M5 ارزیابی میکنیم، یک مجموعه داده خردهفروشی در مقیاس بزرگ که شامل تعاملات متقابل متغیر مهم است. M5 حاوی اطلاعات 30490 محصول است که طی 5 سال جمع آوری شده است. هر توضیح محصول شامل دادههای سری زمانی، مانند فروش روزانه، قیمت فروش، اطلاعات رویداد تبلیغاتی، و ویژگیهای ثابت (غیر سری زمانی)، مانند مکان فروشگاه و دسته محصول است. هدف پیش بینی فروش روزانه هر محصول برای 28 روز آینده است که با استفاده از ریشه وزنی میانگین مربعات خطای مقیاس شده (WRMSSE) از رقابت M5 ارزیابی می شود. ماهیت پیچیده خردهفروشی، پیشبینی صرفاً با استفاده از مدلهای تک متغیره که بر الگوهای زمانی تمرکز دارند، چالش برانگیزتر میکند، بنابراین مدلهای چند متغیره با اطلاعات متقابل متغیر و حتی ویژگیهای کمکی ضروریتر هستند.
اول، ما TSMixer را تنها با در نظر گرفتن داده های تاریخی، مانند فروش روزانه و قیمت های فروش تاریخی، با روش های دیگر مقایسه می کنیم. نتایج نشان میدهد که مدلهای چند متغیره عملکرد قابلتوجهی از مدلهای تک متغیره دارند که نشاندهنده سودمندی اطلاعات متقابل است. و در میان تمام روش های مقایسه شده، TSMixer به طور موثر از اطلاعات متقابل استفاده می کند و بهترین عملکرد را به دست می آورد.
علاوه بر این، برای استفاده از اطلاعات بیشتر، مانند ویژگیهای ثابت (مثلاً مکان فروشگاه، دسته محصول) و سریهای زمانی آینده (مثلاً یک رویداد تبلیغاتی برنامهریزیشده در روزهای آینده) ارائهشده در M5، ما یک طرح اصلی برای گسترش TSMixer پیشنهاد میکنیم. TSMixer توسعهیافته انواع مختلف ویژگیها را در طول یکسان تراز میکند و سپس چندین لایه اختلاط را روی ویژگیهای به هم پیوسته اعمال میکند تا پیشبینی کند. معماری توسعهیافته TSMixer از مدلهای رایج در کاربردهای صنعتی، از جمله DeepAR و TFT بهتر عمل میکند و پتانسیل قوی خود را برای تأثیرگذاری در دنیای واقعی نشان میدهد.
![]() |
معماری TSMixer توسعه یافته. در مرحله اول (مرحله تراز)، انواع مختلف ویژگی ها را قبل از الحاق آنها به یک طول تراز می کند. در مرحله دوم (مرحله اختلاط) چندین لایه اختلاط مشروط با ویژگی های استاتیک را اعمال می کند. |
![]() |
WRMSSE در M5. سه روش اول (آبی) مدل های تک متغیره هستند. سه روش میانی (نارنجی) مدل های چند متغیره هستند که فقط ویژگی های تاریخی را در نظر می گیرند. سه روش آخر (قرمز) مدل های چند متغیره ای هستند که ویژگی های تاریخی، آینده و ایستا را در نظر می گیرند. |
نتیجه
ما TSMixer، یک مدل چند متغیره پیشرفته را ارائه میکنیم که از ویژگیهای مدل خطی استفاده میکند و همچنین مدلهای تک متغیره پیشرفته را در معیارهای پیشبینی بلندمدت اجرا میکند. TSMixer با ارائه بینشی در مورد اهمیت اطلاعات متقابل و کمکی در سناریوهای دنیای واقعی، امکانات جدیدی برای توسعه معماریهای پیشبینی سریهای زمانی ایجاد میکند. نتایج تجربی نیاز به در نظر گرفتن معیارهای واقعیتر برای مدلهای پیشبینی چند متغیره را در تحقیقات آینده نشان میدهد. ما امیدواریم که این کار الهامبخش کاوش بیشتر در زمینه پیشبینی سریهای زمانی باشد و منجر به توسعه مدلهای قویتر و مؤثرتر شود که میتوانند در برنامههای کاربردی دنیای واقعی اعمال شوند.
سپاسگزاریها
این تحقیق توسط Si-An Chen، Chun-Liang Li، Nate Yoder، Sercan O. Arik و Tomas Pfister انجام شد.