آماده سازی مجموعه داده های پیچیده برای مطالعه سیستم توصیه کننده آمازون

:::اطلاعات
نویسندگان:

(1) جاناتان اچ ریستروم.

:::

چکیده و مقدمه

ادبیات قبلی

روش ها و داده ها

نتایج

بحث ها

نتیجه گیری و مراجع

الف. اعتبارسنجی مفروضات

ب. مدل های دیگر

ج. مراحل پیش پردازش

ج مراحل پیش پردازش

پرداختن به یک مجموعه داده با میلیون‌ها ردیف و انواع پیچیده مانند «دسته‌ها» و «تاریخ» نیازمند ملاحظات مهندسی خاصی است. این بخش به تشریح مراحل پیش پردازش مورد نیاز برای دریافت داده ها از Ni et al. (2019) به شکل آماده تحلیل.

\ تمام پیش پردازش داده ها با استفاده از پایتون انجام شد (ون روسوم، 2007). این به ویژه به دلیل اکوسیستم غنی بسته های علمی است. برای این پروژه از numpy (Harris et al., 2020)، پانداها (McKinney, 2011) و numba (Lam et al., 2015) برای پردازش کارآمد داده در مقیاس بزرگ استفاده می کنیم. ما همچنین از scikit-learn (Pedregosa et al., 2011) برای تجزیه موثر دسته ها استفاده می کنیم (برای پیاده سازی به مخزن مراجعه کنید).

\ بیشتر محاسبات بر روی خوشه HPC موسسه اینترنت آکسفورد انجام شد. این به ما امکان داد از پردازش چند هسته ای (Gorelick & Ozsvald، 2020) و افزایش RAM بهره مند شویم.

\ مرحله اول ایجاد یک مجموعه داده مربوط به دسته بندی برای کتاب ها است (برای جزئیات به مخزن مراجعه کنید). در اینجا، ما به سادگی فایل gzipped اصلی را می گیریم و …

سئو PBN | خبر های جدید سئو و هک و سرور