14 مجموعه داده باز برای طبقه بندی متن در یادگیری ماشین

عکس پروفایل نویسنده

@Hent03هنگ لیم

من به روند هوش مصنوعی علاقه مندم که نحوه تقابل و تعامل افراد و فناوری را شکل می دهد.

از مجموعه داده های طبقه بندی متن برای دسته بندی متن های زبان طبیعی بر اساس محتوا استفاده می شود. به عنوان مثال ، طبقه بندی مقالات خبری را بر اساس موضوع ، یا طبقه بندی بررسی کتابها را بر اساس پاسخ مثبت یا منفی بیاندیشید. همچنین طبقه بندی متن برای تشخیص زبان ، سازماندهی بازخورد مشتری و کشف تقلب نیز مفید است. اگر این کار به صورت دستی وقت گیر باشد ، این فرایند را می توان با مدل های یادگیری ماشین به صورت خودکار انجام داد. این نتیجه ضمن ارائه بینش های ارزشمند داده ، در وقت شرکت نیز صرفه جویی می کند.

در زیر ، من مجموعه داده هایی از سراسر وب را جمع آوری کرده ام ، از جمله بررسی محصولات ، ارزیابی محتوای آنلاین ، طبقه بندی اخبار و مخازن مجموعه داده ها. امیدوارم این یک نگاه جامع به مجموعه داده های منبع باز موجود و یک نقطه شروع برای پروژه های یادگیری ماشین فراهم کند!

مخازن مجموعه داده طبقه بندی متن

مجموعه داده های سیستم های پیشنهادی: این مخزن مجموعه شامل مجموعه ای از مجموعه داده های سیستم های توصیه شده است که در تحقیقات جولیان مک آولی ، دانشیار گروه علوم کامپیوتر UCSD استفاده شده است. مجموعه داده ها شامل شبکه های اجتماعی ، بررسی محصولات ، داده های محافل اجتماعی و داده های پرسش و پاسخ است.

مخزن داده های TREC: …