ساخت یک خط لوله ETL برای بارگیری تدریجی داده ها از Office365 به S3 با استفاده از ADF و Databricks

تصویر
عکس پروفایل یی آی هکر نون

در این پست، ما به ایجاد یک کارخانه داده Azure با خط لوله ای نگاه خواهیم کرد که داده های رویداد Office 365 را به صورت تدریجی بر اساس اطلاعات تغییر داده های ضبط (CDC) در منبع Change Data Feed (CDF) جدول دریاچه دلتا به AWS بارگیری می کند. سطل S3.

  • یک خط لوله ADF ایجاد کنید که رویدادهای تقویم را از Offfice365 در یک ظرف Blob بارگیری می کند.
  • یک Notebook Databricks را با فعالیت در خط لوله ADF اجرا کنید، رویداد Calendar استخراج شده را تبدیل کنید و در جدول دریاچه دلتا ادغام کنید.
  • فید تغییر داده را روی جدول دریاچه دلتا در یک سطل AWS S3 بارگذاری کنید.

نمودار زیر معماری مراحل فوق را نشان می دهد:

تصویر

برای ساخت خط لوله، چند پیش نیاز وجود دارد که باید رعایت شود:

قبل از ادامه کار، باید یک حساب ذخیره سازی Azure ایجاد کنیم و به برنامه Azure AD که ثبت نام کرده ایم، اعطا کنیم.