معیاری برای نسل بعدی مدل‌های آب و هوا مبتنی بر داده – وبلاگ تحقیقاتی Google

معیاری برای نسل بعدی مدل‌های آب و هوا مبتنی بر داده – وبلاگ تحقیقاتی Google

در سال 1950، پیش‌بینی آب‌وهوا انقلاب دیجیتالی خود را آغاز کرد، زمانی که محققان از اولین کامپیوتر قابل برنامه‌ریزی و همه منظوره ENIAC برای حل معادلات ریاضی که چگونگی تکامل آب و هوا را توصیف می‌کردند، استفاده کردند. در بیش از 70 سال پس از آن، پیشرفت‌های مستمر در قدرت محاسباتی و بهبود فرمول‌بندی‌های مدل منجر به دستاوردهای ثابتی در مهارت پیش‌بینی آب و هوا شده است: یک پیش‌بینی 7 روزه امروز تقریباً به اندازه پیش‌بینی 5 روزه در سال 2000 و یک پیش‌بینی 3 روزه دقیق است. -پیش‌بینی روز در سال 1980. در حالی که بهبود دقت پیش‌بینی با سرعت تقریباً یک روز در هر دهه ممکن است کار مهمی به نظر نرسد، بهبود هر روز در موارد استفاده گسترده، مانند برنامه‌ریزی لجستیک، مدیریت بلایا، کشاورزی و انرژی مهم است. تولید این انقلاب “آرام” برای جامعه بسیار ارزشمند بوده است، جان انسان ها را نجات داده و در بسیاری از بخش ها ارزش اقتصادی ایجاد کرده است.

اکنون شاهد شروع یک انقلاب دیگر در پیش بینی آب و هوا هستیم که این بار با پیشرفت در یادگیری ماشین (ML) تقویت شده است. به‌جای تقریب‌های کدگذاری سخت معادلات فیزیکی، ایده این است که الگوریتم‌هایی یاد بگیرند که چگونه آب و هوا از مشاهده حجم زیادی از داده‌های آب‌وهوای گذشته تکامل می‌یابد. تلاش‌های اولیه برای انجام این کار به سال 2018 بازمی‌گردد، اما سرعت آن در دو سال گذشته که چندین مدل بزرگ ML مهارت پیش‌بینی آب و هوا را با بهترین مدل‌های مبتنی بر فیزیک نشان دادند، به‌طور قابل‌توجهی افزایش یافت. مت نت گوگل [1, 2]به عنوان مثال، توانایی های پیشرفته ای را برای پیش بینی آب و هوای منطقه یک روز آینده نشان داد. برای پیش‌بینی جهانی، Google DeepMind GraphCast را ایجاد کرد، یک شبکه عصبی نموداری برای پیش‌بینی 10 روزه با وضوح افقی 25 کیلومتر، که با بهترین مدل‌های مبتنی بر فیزیک در بسیاری از معیارهای مهارت رقابت می‌کند.

جدای از ارائه بالقوه پیش‌بینی‌های دقیق‌تر، یکی از مزیت‌های کلیدی چنین روش‌های ML این است که پس از آموزش، می‌توانند پیش‌بینی‌هایی را در عرض چند دقیقه روی سخت‌افزار ارزان‌قیمت ایجاد کنند. در مقابل، پیش‌بینی‌های سنتی آب و هوا به ابرکامپیوترهای بزرگی نیاز دارند که هر روز ساعت‌ها کار کنند. واضح است که ML یک فرصت فوق العاده برای جامعه پیش بینی آب و هوا است. این امر همچنین توسط مراکز پیش‌بینی آب‌وهوا، مانند نقشه راه یادگیری ماشینی مرکز اروپایی پیش‌بینی‌های هوای متوسط ​​(ECMWF) یا استراتژی هوش مصنوعی سازمان ملی اقیانوسی و جوی (NOAA) به رسمیت شناخته شده است.

برای اطمینان از اینکه مدل های ML قابل اعتماد هستند و برای هدف درست بهینه می شوند، ارزیابی پیش بینی بسیار مهم است. با این حال، ارزیابی پیش بینی های آب و هوا کار ساده ای نیست، زیرا آب و هوا یک مشکل فوق العاده چند وجهی است. کاربران نهایی مختلف به ویژگی‌های مختلف پیش‌بینی‌ها علاقه‌مند هستند، برای مثال، تولیدکنندگان انرژی‌های تجدیدپذیر به سرعت باد و تابش خورشیدی اهمیت می‌دهند، در حالی که تیم‌های واکنش به بحران نگران مسیر یک طوفان بالقوه یا یک موج گرما قریب‌الوقوع هستند. به عبارت دیگر، هیچ معیار واحدی برای تعیین پیش‌بینی آب و هوای “خوب” وجود ندارد و ارزیابی باید ماهیت چند وجهی آب و هوا و کاربردهای پایین دستی آن را منعکس کند. علاوه بر این، تفاوت در تنظیم دقیق ارزیابی – به عنوان مثال، وضوح و داده های حقیقت زمینی استفاده می شود – می تواند مقایسه مدل ها را دشوار کند. داشتن راهی برای مقایسه روش‌های جدید و تثبیت‌شده به شیوه‌ای منصفانه و قابل تکرار برای اندازه‌گیری پیشرفت در این زمینه بسیار مهم است.

به همین منظور، WeatherBench 2 (WB2) را معرفی می کنیم که معیاری برای نسل بعدی مدل های آب و هوای جهانی مبتنی بر داده است. WB2 یک به‌روزرسانی برای معیار اصلی منتشر شده در سال 2020 است که بر اساس مدل‌های اولیه ML با وضوح پایین‌تر است. هدف WB2 سرعت بخشیدن به پیشرفت مدل های آب و هوایی مبتنی بر داده با ارائه یک چارچوب قابل اعتماد و قابل تکرار برای ارزیابی و مقایسه روش های مختلف است. وب سایت رسمی شامل نمرات چندین مدل پیشرفته است (در زمان نگارش، اینها Keisler (2022)، یک شبکه عصبی گراف اولیه، GraphCast Google DeepMind و Pangu-Weather هواوی، یک مدل ML مبتنی بر ترانسفورماتور هستند. ). علاوه بر این، پیش‌بینی‌های ECMWF با وضوح بالا و سیستم‌های پیش‌بینی مجموعه گنجانده شده‌اند که برخی از بهترین مدل‌های سنتی پیش‌بینی آب و هوا را نشان می‌دهند.

آسان کردن ارزیابی

مؤلفه کلیدی WB2 یک چارچوب ارزیابی منبع باز است که به کاربران اجازه می‌دهد پیش‌بینی‌های خود را مانند سایر خطوط پایه ارزیابی کنند. داده های پیش بینی آب و هوا در وضوح بالا می تواند بسیار بزرگ باشد و حتی ارزیابی را به یک چالش محاسباتی تبدیل کند. به همین دلیل، ما کد ارزیابی خود را بر روی Apache Beam ساختیم، که به کاربران اجازه می دهد محاسبات را به قطعات کوچکتر تقسیم کنند و آنها را به صورت توزیع شده ارزیابی کنند، به عنوان مثال با استفاده از DataFlow در Google Cloud. این کد همراه با راهنمای شروع سریع است که به افراد کمک می کند تا سرعت خود را افزایش دهند.

علاوه بر این، ما بیشتر داده‌های واقعی و پایه را در Google Cloud Storage در قالب Zarr بهینه‌سازی شده برای ابر با وضوح‌های مختلف ارائه می‌کنیم، به عنوان مثال، یک کپی جامع از مجموعه داده ERA5 که برای آموزش بیشتر مدل‌های ML استفاده می‌شود. این بخشی از تلاش بزرگ‌تر Google برای ارائه مجموعه داده‌های آب و هوا و آب و هوای آماده برای تجزیه و تحلیل، بهینه‌سازی ابری برای جامعه تحقیقاتی و فراتر از آن است. از آنجایی که دانلود این داده ها از آرشیوهای مربوطه و تبدیل آنها می تواند زمان بر و محاسباتی فشرده باشد، امیدواریم که این امر به میزان قابل توجهی مانع ورود جامعه را کاهش دهد.

ارزیابی مهارت پیش بینی

به همراه همکارانمان از ECMWF، مجموعه‌ای از امتیازات سرفصل را تعریف کردیم که بهترین کیفیت پیش‌بینی‌های آب و هوای جهانی را نشان می‌دهد. همانطور که شکل زیر نشان می‌دهد، چندین پیش‌بینی مبتنی بر ML نسبت به مدل‌های فیزیکی پیشرفته در معیارهای قطعی خطاهای کمتری دارند. این برای طیف وسیعی از متغیرها و مناطق صادق است و بر رقابت پذیری و نوید رویکردهای مبتنی بر ML تأکید می کند.

این کارت امتیازی مهارت مدل‌های مختلف را در مقایسه با سیستم پیش‌بینی مجتمع (IFS) ECMWF که یکی از بهترین پیش‌بینی‌های آب و هوا مبتنی بر فیزیک است، برای چندین متغیر نشان می‌دهد. پیش‌بینی‌های IFS با تحلیل IFS ارزیابی می‌شوند. تمام مدل های دیگر در برابر ERA5 ارزیابی می شوند. ترتیب مدل های ML منعکس کننده تاریخ انتشار است.

به سوی پیش بینی های احتمالی قابل اعتماد

با این حال، یک پیش بینی واحد اغلب کافی نیست. آب و هوا ذاتاً به دلیل اثر پروانه ای آشفته است. به همین دلیل، مراکز آب و هوای عملیاتی اکنون حدود 50 مدل خود را که یک مجموعه نامیده می‌شود، برای تخمین توزیع احتمال پیش‌بینی در سناریوهای مختلف اجرا می‌کنند. این مهم است، برای مثال، اگر کسی بخواهد احتمال آب و هوای شدید را بداند.

ایجاد پیش بینی های احتمالی قابل اعتماد یکی از چالش های کلیدی بعدی برای مدل های جهانی ML خواهد بود. مدل‌های منطقه‌ای ML، مانند MetNet Google، از قبل احتمالات را تخمین می‌زنند. برای پیش‌بینی نسل بعدی مدل‌های جهانی، WB2 در حال حاضر معیارها و خطوط پایه احتمالی، از جمله مجموعه IFS ECMWF را برای تسریع تحقیقات در این جهت ارائه می‌کند.

همانطور که در بالا ذکر شد، پیش‌بینی آب‌وهوا جنبه‌های زیادی دارد، و در حالی که معیارهای سرفصل سعی می‌کنند مهم‌ترین جنبه‌های مهارت پیش‌بینی را به تصویر بکشند، به هیچ وجه کافی نیستند. یک مثال واقع گرایی پیش بینی است. در حال حاضر، بسیاری از مدل‌های پیش‌بینی ML تمایل دارند در مواجهه با عدم قطعیت ذاتی جو، شرط‌های خود را پوشش دهند. به عبارت دیگر، آن‌ها تمایل دارند میدان‌های هموار شده‌ای را پیش‌بینی کنند که میانگین خطای کمتری دارند اما حالت واقعی و فیزیکی سازگار جو را نشان نمی‌دهند. نمونه ای از آن را می توانید در انیمیشن زیر مشاهده کنید. دو مدل مبتنی بر داده، Pangu-Weather و GraphCast (پایین)، تکامل اتمسفر در مقیاس بزرگ را به خوبی پیش‌بینی می‌کنند. با این حال، در مقایسه با حقیقت زمینی یا مدل پیش‌بینی فیزیکی IFS HRES (بالا) ساختار مقیاس کوچک‌تری نیز دارند. در WB2 ما طیفی از این مطالعات موردی و همچنین یک متریک طیفی را شامل می‌شویم که چنین تاری را کمیت می‌کند.

پیش‌بینی‌های یک جبهه که از قاره ایالات متحده می‌گذرد در 3 ژانویه 2020 آغاز شد. نقشه‌ها دما را در سطح فشار 850 hPa (تقریبا معادل ارتفاع 1.5 کیلومتری) و ژئوپتانسیل را در سطح فشار 500 hPa (تقریباً 5.5 کیلومتر) نشان می‌دهند. ) در خطوط. ERA5 آنالیز حقیقت زمینی مربوطه است، IFS HRES مدل پیش‌بینی مبتنی بر فیزیک ECMWF است.

نتیجه

WeatherBench 2 در کنار توسعه مدل ML به تکامل خود ادامه خواهد داد. وب سایت رسمی با جدیدترین مدل های روز به روز می شود. (برای ارسال مدل لطفا این دستورالعمل ها را دنبال کنید). ما همچنین از جامعه دعوت می‌کنیم تا بازخورد و پیشنهادات خود را برای بهبود از طریق مشکلات و درخواست‌ها در صفحه WB2 GitHub ارائه دهند.

طراحی خوب ارزیابی و هدف قرار دادن معیارهای مناسب برای اطمینان از اینکه مدل‌های آب و هوای ML در سریع‌ترین زمان ممکن به نفع جامعه هستند، بسیار مهم است. WeatherBench 2 همانطور که اکنون هست فقط نقطه شروع است. ما قصد داریم آن را در آینده گسترش دهیم تا به مسائل کلیدی برای آینده پیش بینی آب و هوا مبتنی بر ML رسیدگی شود. به طور خاص، ما می خواهیم مشاهدات ایستگاه و مجموعه داده های بارش بهتر را اضافه کنیم. علاوه بر این، گنجاندن Nowcasting و پیش‌بینی‌های فصل به فصل را در معیار بررسی خواهیم کرد.

ما امیدواریم که WeatherBench 2 بتواند به محققان و کاربران نهایی کمک کند زیرا پیش بینی آب و هوا همچنان در حال تکامل است.

سپاسگزاریها

WeatherBench 2 نتیجه همکاری بین تیم های مختلف در Google و همکاران خارجی در ECMWF است. از ECMWF، مایلیم از متیو چانتری، زید بن بوالگ و پیتر دوبن تشکر کنیم. از طرف گوگل، مایلیم از مشارکت کنندگان اصلی پروژه تشکر کنیم: استفان راسپ، استفان هویر، پیتر باتاگلیا، الکس مروس، ایان لانگمور، تایلر راسل، آلوارو سانچز، آنتونیو لوباتو، لارنس چیو، راب کارور، ویویان یانگ، شریا آگراوال ، توماس ترنبول، جیسون هیکی، کارلا برومبرگ، جرد سیسک، لوک بارینگتون، آرون بل و فی شا. همچنین مایلیم از کونال شاه، راهول ماهرسی، آنیکت روات و ساتیش کومار تشکر کنیم. از جان اندرسون برای حمایت مالی از WeatherBench 2 متشکریم. علاوه بر این، مایلیم از Kaifeng Bi از تیم Pangu-Weather و Ryan Keisler برای کمک آنها در افزودن مدل های خود به WeatherBench 2 تشکر کنیم.