
از مجموعه داده های طبقه بندی متن برای دسته بندی متن های زبان طبیعی بر اساس محتوا استفاده می شود. به عنوان مثال ، طبقه بندی مقالات خبری را بر اساس موضوع ، یا طبقه بندی بررسی کتابها را بر اساس پاسخ مثبت یا منفی بیاندیشید. همچنین طبقه بندی متن برای تشخیص زبان ، سازماندهی بازخورد مشتری و کشف تقلب نیز مفید است. اگر این کار به صورت دستی وقت گیر باشد ، این فرایند را می توان با مدل های یادگیری ماشین به صورت خودکار انجام داد. این نتیجه ضمن ارائه بینش های ارزشمند داده ، در وقت شرکت نیز صرفه جویی می کند.
در زیر ، من مجموعه داده هایی از سراسر وب را جمع آوری کرده ام ، از جمله بررسی محصولات ، ارزیابی محتوای آنلاین ، طبقه بندی اخبار و مخازن مجموعه داده ها. امیدوارم این یک نگاه جامع به مجموعه داده های منبع باز موجود و یک نقطه شروع برای پروژه های یادگیری ماشین فراهم کند!
مخازن مجموعه داده طبقه بندی متن
مجموعه داده های سیستم های پیشنهادی: این مخزن مجموعه شامل مجموعه ای از مجموعه داده های سیستم های توصیه شده است که در تحقیقات جولیان مک آولی ، دانشیار گروه علوم کامپیوتر UCSD استفاده شده است. مجموعه داده ها شامل شبکه های اجتماعی ، بررسی محصولات ، داده های محافل اجتماعی و داده های پرسش و پاسخ است.
مخزن داده های TREC: …