10 مجموعه داده Reddit برای NLP و سایر پروژه های ML

عکس پروفایل نویسنده

@لیمارکلیمارک آمبالینا

ویرایشگرHackernoon در روز ، VR Gamer و Anime Binger در شب

در این پست ، من می خواستم یک لیست داده Reddit را به اشتراک بگذارم که هنگام انتشار برای اولین بار مورد توجه بسیاری از رسانه های اجتماعی قرار گرفت.

Reddit که به عنوان “صفحه اول اینترنت” شناخته می شود ، بخشی از انجمن ، بخشی از سایت رسانه های اجتماعی است ، جایی که کاربران می توانند تقریباً همه چیز و همه چیز را ارسال کنند.

برخلاف فیس بوک ، توییتر یا اینستاگرام ، اکثر کاربران Reddit ناشناس باقی مانده اند. مجریان Reddit زیر فروم ها را که به عنوان subreddits شناخته می شوند ، کاملاً سانسور و تصحیح می کنند.

با این حال ، ناشناس ماندن به افراد اجازه می دهد آنچه را که می خواهند به هر روشی که مایل باشند بیان کنند. بنابراین ، نظرات و ارسال های Reddit برای آزمایش و آموزش مدل های متعدد پردازش زبان طبیعی (NLP) مناسب هستند.

هشدار: برخی از مجموعه داده های زیر به طور خاص برای آموزش مدل های تعدیل محتوا گردآوری شده اند. بنابراین ، داده ها ممکن است شامل محتوای صریح باشند.

مجموعه داده های Reddit نظرات

1. مجموعه داده های Reddit Cryptocurrency – این مجموعه داده حاوی نظرات ارز زیر ارز رمزگذاری شده است. این داده ها شامل نظراتی است که در طی پنج ماه از نوامبر 2017 تا مارس 2018 ارسال شده است.

2. نظرات دونالد ترامپ در مورد Reddit – یک مجموعه ساده حاوی هزاران نظر از Reddit که با ذکر دونالد ترامپ همراه است.

3. Reddit امتیاز نظر …

سئو PBN | خبر های جدید سئو و هک و سرور