یک قالب ابرداده برای مجموعه داده های آماده ML

شاغلین یادگیری ماشین (ML) که به دنبال استفاده مجدد از مجموعه داده‌های موجود برای آموزش مدل ML هستند، اغلب زمان زیادی را صرف درک داده‌ها، درک سازمان آن، یا کشف زیرمجموعه به عنوان ویژگی می‌کنند. در واقع، زمان زیادی وجود دارد که پیشرفت در زمینه ML توسط یک مانع اساسی مختل شده است: طیف گسترده ای از نمایش داده ها.

مجموعه داده‌های ML طیف گسترده‌ای از انواع محتوا، از متن و داده‌های ساختاریافته گرفته تا تصاویر، صدا و ویدئو را پوشش می‌دهند. حتی در مجموعه داده هایی که انواع یکسانی را پوشش می دهند، هر مجموعه داده ای منحصر به فرد دارد به این ترتیب فایل ها و فرمت های داده این چالش بهره‌وری را در کل فرآیند توسعه ML، از یافتن داده‌ها تا آموزش مدل، کاهش می‌دهد. همچنین مانع توسعه ابزارهای مورد نیاز برای کار با مجموعه داده ها می شود.

فرمت های فراداده با هدف کلی برای مجموعه داده ها مانند schema.org و DCAT وجود دارد. با این حال، این قالب‌ها برای کشف داده‌ها طراحی شده‌اند تا برای نیازهای خاص داده‌های ML، مانند توانایی استخراج و ترکیب داده‌ها از منابع ساخت‌یافته و بدون ساختار، برای گنجاندن ابرداده‌هایی که استفاده مسئولانه از داده‌ها را ممکن می‌سازد، یا برای توصیف ML. ویژگی های استفاده مانند تعریف مجموعه های آموزشی، تست و اعتبار سنجی.

امروز، ما Croissant را معرفی می کنیم، یک قالب ابرداده جدید برای مجموعه داده های آماده ML. کروسانت به‌عنوان بخشی از تلاش MLCommons توسط جامعه‌ای از صنعت و دانشگاه به‌طور مشترک توسعه داده شد. قالب کروسانت نحوه نمایش داده های واقعی را تغییر نمی دهد (به عنوان مثال، فرمت های فایل تصویری یا متنی) – یک روش استاندارد برای توصیف و سازماندهی آن ارائه می دهد. Croissant بر اساس schema.org، استاندارد بالفعل برای انتشار داده های ساختاریافته در وب، که در حال حاضر توسط بیش از 40 میلیون مجموعه داده استفاده می شود، ساخته شده است. Croissant آن را با لایه‌های جامعی برای ابرداده‌های مرتبط با ML، منابع داده، سازماندهی داده‌ها و معناشناسی پیش‌فرض ML تقویت می‌کند.

علاوه بر این، ما پشتیبانی از ابزارها و مخازن اصلی را اعلام می کنیم: امروز، سه مجموعه پرکاربرد از مجموعه داده های ML – Kaggle، Hugging Face و OpenML – شروع به پشتیبانی از قالب کروسانت برای مجموعه داده هایی که میزبانی می کنند، خواهند کرد. ابزار جستجوی مجموعه داده به کاربران امکان می دهد مجموعه داده های کروسانت را در سراسر وب جستجو کنند. و فریمورک های محبوب ML، از جمله TensorFlow، PyTorch، و JAX، می توانند مجموعه داده های کروسانت را به راحتی با استفاده از بسته TensorFlow Datasets (TFDS) بارگیری کنند.