MLOps با Databricks و Spark – قسمت 1

یا ..

این صفحه را بررسی کنید و مطمئن شوید که فضای کاری شما برای UC فعال است.

سازمان داده ها

برای ساختار دادن به داده های خود در UC، از معماری مدالیون پیروی می کنیم. این یکی از روش های توصیه شده برای سازماندهی داده های شما است و بر اساس بلوغ داده ها است. معماری معمولا دارای سه لایه است که به صورت طرحواره نمایش داده می شود: برنز (خام)، نقره ای (ساختار یافته)، و طلا (غنی شده). بسته به مورد خاص یا تنظیمات تیم شما، ممکن است لایه های دیگری نیز داشته باشید. برای مثال، ممکن است لازم باشد مجموعه داده خام خود را به روش‌های مختلف تغییر دهید تا برای موارد استفاده مختلف یا بخش‌های مختلف تیم خود مناسب باشد.

برای مورد استفاده ما آن را ساده نگه می داریم و سه طرحواره را به صورت زیر مشخص می کنیم:

  • خام (برنز): داده های خام جمع آوری شده از آرشیو داده های Movielens. ما استفاده می کنیم curl دستور دانلود مجموعه داده به صورت a .zip فایل را در volume ذخیره سازی محتوای فایل زیپ شده را نیز در همان محل استخراج می کنیم. ما در نهایت با مجموعه ای از .tsv فایل ها
  • تبدیل شده (نقره): ما طرحواره ها و ستون ها را برای جداول داده های خود فیلتر می کنیم. در اینجا نیز پیش پردازش و تمیز کردن داده ها انجام می شود.
  • feature_store (طلا): این طرح شامل تمام داده های انبوه ما است که می تواند به خط لوله ML ما تغذیه شود.

کاتالوگ و طرحواره ها را ایجاد کنید

برای ایجاد کاتالوگ و طرحواره های خود می توانیم از Databricks UI یا توسط …

Source link