شاغلین یادگیری ماشین (ML) که به دنبال استفاده مجدد از مجموعه دادههای موجود برای آموزش مدل ML هستند، اغلب زمان زیادی را صرف درک دادهها، درک سازمان آن، یا کشف زیرمجموعه به عنوان ویژگی میکنند. در واقع، زمان زیادی وجود دارد که پیشرفت در زمینه ML توسط یک مانع اساسی مختل شده است: طیف گسترده ای از نمایش داده ها.
مجموعه دادههای ML طیف گستردهای از انواع محتوا، از متن و دادههای ساختاریافته گرفته تا تصاویر، صدا و ویدئو را پوشش میدهند. حتی در مجموعه داده هایی که انواع یکسانی را پوشش می دهند، هر مجموعه داده ای منحصر به فرد دارد به این ترتیب فایل ها و فرمت های داده این چالش بهرهوری را در کل فرآیند توسعه ML، از یافتن دادهها تا آموزش مدل، کاهش میدهد. همچنین مانع توسعه ابزارهای مورد نیاز برای کار با مجموعه داده ها می شود.
فرمت های فراداده با هدف کلی برای مجموعه داده ها مانند schema.org و DCAT وجود دارد. با این حال، این قالبها برای کشف دادهها طراحی شدهاند تا برای نیازهای خاص دادههای ML، مانند توانایی استخراج و ترکیب دادهها از منابع ساختیافته و بدون ساختار، برای گنجاندن ابردادههایی که استفاده مسئولانه از دادهها را ممکن میسازد، یا برای توصیف ML. ویژگی های استفاده مانند تعریف مجموعه های آموزشی، تست و اعتبار سنجی.
امروز، ما Croissant را معرفی می کنیم، یک قالب ابرداده جدید برای مجموعه داده های آماده ML. کروسانت بهعنوان بخشی از تلاش MLCommons توسط جامعهای از صنعت و دانشگاه بهطور مشترک توسعه داده شد. قالب کروسانت نحوه نمایش داده های واقعی را تغییر نمی دهد (به عنوان مثال، فرمت های فایل تصویری یا متنی) – یک روش استاندارد برای توصیف و سازماندهی آن ارائه می دهد. Croissant بر اساس schema.org، استاندارد بالفعل برای انتشار داده های ساختاریافته در وب، که در حال حاضر توسط بیش از 40 میلیون مجموعه داده استفاده می شود، ساخته شده است. Croissant آن را با لایههای جامعی برای ابردادههای مرتبط با ML، منابع داده، سازماندهی دادهها و معناشناسی پیشفرض ML تقویت میکند.
علاوه بر این، ما پشتیبانی از ابزارها و مخازن اصلی را اعلام می کنیم: امروز، سه مجموعه پرکاربرد از مجموعه داده های ML – Kaggle، Hugging Face و OpenML – شروع به پشتیبانی از قالب کروسانت برای مجموعه داده هایی که میزبانی می کنند، خواهند کرد. ابزار جستجوی مجموعه داده به کاربران امکان می دهد مجموعه داده های کروسانت را در سراسر وب جستجو کنند. و فریمورک های محبوب ML، از جمله TensorFlow، PyTorch، و JAX، می توانند مجموعه داده های کروسانت را به راحتی با استفاده از بسته TensorFlow Datasets (TFDS) بارگیری کنند.