نقش داده ها در یادگیری ماشینی
در چشمانداز امروزی مبتنی بر هوش مصنوعی، یادگیری ماشین، هوش مصنوعی و رباتهای گفتگو با سرعتی بیسابقه در حال تغییر صنایع هستند.
کسب و کارهای بیشتری به دنبال ادغام هوش مصنوعی در عملیات خود هستند، اما نحوه ساخت این سیستم ها اغلب نادیده گرفته می شود. ماده اصلی؟ داده ها یک مدل یادگیری ماشینی فقط به اندازه داده هایی است که روی آن آموزش داده شده است. اما این همه داده از کجا آمده است؟
بخش قابل توجهی از دادههایی که ما به آنها تکیه میکنیم در دسترس عموم است که اغلب در پستهای رسانههای اجتماعی، نظرات کاربران و سایر محتوای آنلاین یافت میشوند. برای تجزیه و تحلیل احساسات، یکی از غنی ترین منابع داده، توییتر است که به طور مداوم محتوای تولید شده توسط کاربر را در زمان واقعی پخش می کند. با این حال، چالش در نحوه جمع آوری این داده ها به طور موثر و تمیز نهفته است.
مشکل جمع آوری داده های توییتر سنتی
وقتی شروع به کار بر روی یک پروژه تجزیه و تحلیل احساسات با استفاده از داده های توییتر کردم، در ابتدا به فکر استفاده از Twitter API بودم. با این حال، من به سرعت با یک محدودیت قابل توجه مواجه شدم: API لایه آزاد فقط دسترسی به توییت های هفت روز گذشته را فراهم می کند. برای تجزیه و تحلیل احساسات جامع، به ویژه برای موضوعات پرطرفدار یا رویدادهای سیاسی هفته ها یا ماه ها، این محدودیت به شدت دامنه و کیفیت داده های موجود را محدود می کند.
در حین ارتقاء به یک …