اعلام چالش های 2023 DataPerf – وبلاگ هوش مصنوعی گوگل

اعلام چالش های 2023 DataPerf – وبلاگ هوش مصنوعی گوگل

یادگیری ماشینی (ML) پتانسیل فوق‌العاده‌ای را ارائه می‌دهد، از تشخیص سرطان گرفته تا مهندسی خودروهای خودران ایمن و تقویت بهره‌وری انسان. با این حال، برای تحقق این پتانسیل، سازمان‌ها به راه‌حل‌های ML نیاز دارند تا با توسعه راه‌حل‌های ML که قابل پیش‌بینی و قابل اجرا باشد، قابل اعتماد باشند. کلید هر دو، درک عمیق‌تر داده‌های ML است – چگونه مجموعه‌های داده آموزشی را مهندسی کنیم که مدل‌های با کیفیت بالا تولید می‌کنند و مجموعه‌های داده آزمایشی که شاخص‌های دقیقی از نزدیک بودن ما به حل مشکل هدف ارائه می‌دهند.

فرآیند ایجاد مجموعه داده‌های با کیفیت بالا، از انتخاب اولیه و پاکسازی داده‌های خام، تا برچسب‌گذاری داده‌ها و تقسیم آن به مجموعه‌های آموزشی و آزمایشی، پیچیده و مستعد خطا است. برخی از کارشناسان بر این باورند که عمده تلاش در طراحی یک سیستم ML در واقع منبع یابی و تهیه داده ها است. هر مرحله می تواند مسائل و سوگیری ها را معرفی کند. حتی بسیاری از مجموعه داده‌های استانداردی که امروزه استفاده می‌کنیم نشان داده شده است که داده‌های برچسب‌گذاری نادرستی دارند که می‌تواند معیارهای تثبیت‌شده ML را بی‌ثبات کند. علیرغم اهمیت اساسی داده ها برای ML، تنها در حال حاضر شروع به دریافت همان سطح توجهی شده است که مدل ها و الگوریتم های یادگیری در دهه گذشته از آن لذت برده اند.

برای رسیدن به این هدف، ما DataPerf را معرفی می‌کنیم، مجموعه‌ای از چالش‌های جدید ML داده‌محور برای پیشبرد پیشرفته‌ترین فناوری‌های انتخاب، آماده‌سازی و کسب داده‌ها، که از طریق همکاری گسترده در صنعت و دانشگاه طراحی و ساخته شده است. نسخه اولیه DataPerf شامل چهار چالش است که بر سه وظیفه مشترک داده محور در سه حوزه برنامه متمرکز شده است. پردازش بینایی، گفتار و زبان طبیعی (NLP). در این وبلاگ پست، گلوگاه‌های توسعه مجموعه داده‌ای را که محققان با آن مواجه هستند را تشریح می‌کنیم و نقش معیارها و تابلوهای امتیازات را در تشویق محققان برای رسیدگی به این چالش‌ها مورد بحث قرار می‌دهیم. ما از نوآورانی در دانشگاه و صنعت که به دنبال اندازه‌گیری و اعتبارسنجی پیشرفت‌ها در ML داده‌محور هستند دعوت می‌کنیم تا قدرت الگوریتم‌ها و تکنیک‌های خود را برای ایجاد و بهبود مجموعه‌های داده از طریق این معیارها نشان دهند.

داده ها گلوگاه جدید ML هستند

داده ها کد جدید هستند: این داده های آموزشی هستند که حداکثر کیفیت ممکن یک راه حل ML را تعیین می کنند. مدل فقط میزان تحقق حداکثر کیفیت را تعیین می کند. به یک معنا، مدل یک کامپایلر با اتلاف برای داده ها است. اگرچه مجموعه داده‌های آموزشی با کیفیت بالا برای پیشرفت مستمر در زمینه ML حیاتی هستند، بسیاری از داده‌هایی که امروزه این حوزه بر آن تکیه می‌کند تقریباً یک دهه قدمت دارد (مثلا ImageNet یا LibriSpeech) یا با فیلتر کردن بسیار محدود محتوا از وب حذف شده است. (به عنوان مثال، LAION یا The Pile).

علیرغم اهمیت داده ها، تحقیقات ML تا به امروز تحت سلطه تمرکز بر مدل ها بوده است. قبل از شبکه‌های عصبی عمیق مدرن (DNN)، هیچ مدل ML کافی برای مطابقت با رفتار انسان برای بسیاری از وظایف ساده وجود نداشت. این شرایط شروع منجر به الف پارادایم مدل محور که در آن (1) مجموعه داده آموزشی و مجموعه داده آزمایشی مصنوعات “یخ زده” بودند و هدف توسعه یک مدل بهتر بود، و (2) مجموعه داده های آزمایشی به دلایل آماری به طور تصادفی از همان مجموعه داده های مجموعه آموزشی انتخاب شدند. متأسفانه، انجماد مجموعه داده‌ها، توانایی بهبود دقت و کارایی آموزش با داده‌های بهتر را نادیده گرفت و استفاده از مجموعه‌های آزمایشی که از همان مجموعه داده‌های آموزشی گرفته شده بود، تطبیق آن داده‌ها را با حل واقعی مشکل اساسی ترکیب کرد.

چون الان در حال توسعه هستیم و استقرار راه‌حل‌های ML برای کارهای پیچیده‌تر، ما باید مجموعه‌های آزمایشی را مهندسی کنیم که به طور کامل مشکلات دنیای واقعی و مجموعه‌های آموزشی را که در ترکیب با مدل‌های پیشرفته، راه‌حل‌های مؤثر ارائه می‌دهند، ثبت کنیم. ما باید از امروز دور شویم پارادایم مدل محور به یک پارادایم داده محور که در آن می دانیم که برای اکثر توسعه دهندگان ML، ایجاد آموزش و داده های آزمایشی با کیفیت بالا یک گلوگاه خواهد بود.

تغییر از پارادایم مدل محور امروزی به پارادایم داده محور که توسط مجموعه داده های با کیفیت و الگوریتم های داده محور مانند موارد اندازه گیری شده در DataPerf فعال می شود.

فعال کردن توسعه دهندگان ML برای ایجاد آموزش و مجموعه داده های آزمایشی بهتر به درک عمیق تری از کیفیت داده های ML و توسعه الگوریتم ها، ابزارها و متدولوژی ها برای بهینه سازی آن نیاز دارد. می‌توانیم با شناخت چالش‌های رایج در ایجاد مجموعه داده و توسعه معیارهای عملکرد برای الگوریتم‌هایی که به آن چالش‌ها رسیدگی می‌کنند، شروع کنیم. برای مثال:

  • انتخاب داده ها: اغلب، ما مجموعه بزرگتری از داده های موجود را نسبت به آنچه که بتوانیم به طور مؤثر برچسب گذاری کنیم یا آموزش دهیم، داریم. چگونه مهم ترین داده ها را برای آموزش مدل های خود انتخاب کنیم؟
  • پاکسازی داده‌ها: برچسب‌گذاران انسانی گاهی اوقات اشتباه می‌کنند. توسعه‌دهندگان ML نمی‌توانند از متخصصان بخواهند همه برچسب‌ها را بررسی و تصحیح کنند. چگونه می توانیم داده هایی را که به احتمال زیاد دارای برچسب اشتباه هستند را برای اصلاح انتخاب کنیم؟

ما همچنین می‌توانیم مشوق‌هایی ایجاد کنیم که به مهندسی مجموعه داده خوب پاداش می‌دهد. ما پیش‌بینی می‌کنیم که داده‌های آموزشی با کیفیت بالا، که به دقت انتخاب و برچسب‌گذاری شده‌اند، به محصولی ارزشمند در بسیاری از صنایع تبدیل شوند، اما در حال حاضر راهی برای ارزیابی ارزش نسبی مجموعه‌های داده مختلف بدون آموزش واقعی بر روی مجموعه داده‌های مورد نظر وجود ندارد. چگونه این مشکل را حل کنیم و «اکتساب داده» مبتنی بر کیفیت را فعال کنیم؟

DataPerf: اولین تابلوی امتیاز برای داده ها

ما معتقدیم که معیارها و تابلوهای امتیازات خوب می توانند پیشرفت سریعی را در فناوری داده محور ایجاد کنند. معیارهای ML در دانشگاه برای تحریک پیشرفت در این زمینه ضروری بوده است. نمودار زیر را در نظر بگیرید که پیشرفت را در معیارهای محبوب ML (MNIST، ImageNet، SQuAD، GLUE، Switchboard) در طول زمان نشان می‌دهد:

عملکرد در طول زمان برای معیارهای محبوب، با عملکرد اولیه منهای یک و عملکرد انسانی در صفر عادی شده است. (منبع: Douwe, et al. 2021؛ با اجازه استفاده شد.)

تابلوهای امتیازات آنلاین اعتبارسنجی رسمی نتایج معیار را ارائه می‌کنند و جوامعی را که قصد بهینه‌سازی آن معیارها را دارند، تسریع می‌کنند. به عنوان مثال، Kaggle بیش از 10 میلیون کاربر ثبت شده دارد. نتایج معیار رسمی MLPerf به بهبود بیش از 16 برابری در عملکرد تمرین در معیارهای کلیدی کمک کرده است.

DataPerf اولین انجمن و پلتفرمی است که تابلوهای امتیازات را برای معیارهای داده ایجاد کرده است، و ما امیدواریم که تأثیر مشابهی بر تحقیق و توسعه برای ML داده محور داشته باشیم. نسخه اولیه DataPerf شامل تابلوهای امتیازاتی برای چهار چالش است که بر سه وظیفه داده محور (انتخاب داده، تمیز کردن و جمع آوری) در سه حوزه کاربردی (بینایی، گفتار و NLP) متمرکز شده است:

  • انتخاب داده های آموزشی (Vision): یک استراتژی انتخاب داده طراحی کنید که بهترین مجموعه آموزشی را از میان مجموعه بزرگی از تصاویر آموزشی با برچسب ضعیف انتخاب می کند.
  • انتخاب داده‌های آموزشی (گفتار): یک استراتژی انتخاب داده طراحی کنید که بهترین مجموعه آموزشی را از یک مجموعه کاندیدای بزرگ از کلیپ‌های استخراج شده خودکار کلمات گفتاری انتخاب می‌کند.
  • تمیز کردن داده‌های آموزشی (Vision): یک استراتژی پاک‌سازی داده طراحی کنید که نمونه‌هایی را برای برچسب‌گذاری مجدد از یک مجموعه آموزشی “پر سر و صدا” انتخاب می‌کند که در آن برخی از برچسب‌ها نادرست هستند.
  • ارزیابی مجموعه داده های آموزشی (NLP): ساخت مجموعه داده های با کیفیت می تواند گران باشد و در حال تبدیل شدن به کالاهای با ارزش هستند. یک استراتژی جمع‌آوری داده طراحی کنید که براساس اطلاعات محدود در مورد داده‌ها، مجموعه داده‌های آموزشی را برای «خرید» انتخاب کند.

برای هر چالش، وب‌سایت DataPerf اسناد طراحی را ارائه می‌کند که مشکل، مدل(های) آزمایش، هدف کیفیت، قوانین و دستورالعمل‌های نحوه اجرای کد و ارسال را تعریف می‌کند. تابلوهای امتیازات زنده بر روی پلتفرم Dynabench میزبانی می شوند، که همچنین یک چارچوب ارزیابی آنلاین و ردیاب ارسال ارائه می دهد. Dynabench یک پروژه منبع باز است که توسط انجمن MLCommons میزبانی می شود و بر فعال کردن تابلوهای داده محور برای داده های آموزشی و آزمایشی و الگوریتم های داده محور متمرکز است.

چگونه درگیر شویم

ما بخشی از جامعه ای از محققان ML، دانشمندان داده و مهندسانی هستیم که برای بهبود کیفیت داده ها تلاش می کنند. ما از نوآوران در دانشگاه و صنعت دعوت می کنیم تا الگوریتم ها و تکنیک های داده محور را برای ایجاد و بهبود مجموعه داده ها از طریق معیارهای DataPerf اندازه گیری و اعتبار سنجی کنند. آخرین مهلت برای دور اول چالش ها 26 می 2023 است.

سپاسگزاریها

معیارهای DataPerf در سال گذشته توسط مهندسان و دانشمندانی از: Coactive.ai، Eidgenössische Technische Hochschule (ETH) زوریخ، گوگل، دانشگاه هاروارد، Meta، ML Commons، دانشگاه استنفورد ایجاد شده است. علاوه بر این، بدون حمایت اعضای گروه کاری DataPerf از دانشگاه کارنگی ملون، مشاوران منشور دیجیتال، Factored، Hugging Face، مؤسسه شناخت انسان و ماشین، Landing.ai، مرکز ابررایانه‌های سن دیگو، آزمایشگاه تامسون رویترز، امکان‌پذیر نبود. ، و TU آیندهوون.