در مهندسی نرمافزار، خط لوله داده دقیقاً همان چیزی است که پیشنهاد میکند: راهی برای جریان دادهها از منبع به مقصد. هر خط لوله داده از 3 مرحله تشکیل شده است.
استخراج کنید فاز: در این مرحله داده ها از منبع استخراج می شوند. این ممکن است ضربه زدن به برخی API، خواندن فایلها از یک ذخیرهسازی شی (مانند AWS S3) یا اجرای پرسوجوها در پایگاه داده (مانند AWS RDS) باشد.
تبدیل کنید فاز: در این مرحله، تبدیلهایی به دادهها اعمال میشود تا آنها را در قالبی متفاوت ماساژ دهند. این می تواند تبدیل در حالت استراحت (مانند عادی سازی همه اسناد در دریاچه داده) یا تبدیل در حرکت (مانند تبدیل از یک کلاس به کلاس دیگر) باشد.
بارگذاری کنید فاز: در این مرحله داده ها در حافظه دیگری بارگذاری می شوند. این می تواند یک انبار داده، پایگاه داده یا حتی یک ابزار روبروی مشتری مانند داشبورد Tableau باشد.
هر خط لوله داده با فاز Extract شروع می شود. اما ترتیب وقوع 2 فاز دیگر خطوط لوله داده را به 2 دسته کلی تقسیم می کند که در زیر توضیح داده شده است.
خطوط لوله ETL
در خطوط لوله ETL ترتیب عملیات است Extract تیرستگاری و Lاود.
در خطوط لوله ETL، دادهها از یک منبع (یا چند منبع) منفرد (یا چندگانه) استخراج میشوند، در لحظه با استفاده از مجموعهای از قوانین تجاری تبدیل میشوند و در یک مخزن هدف بارگذاری میشوند. خطوط لوله ETL معمولا داده ها را به یک فروشگاه رابطه ای مانند یک …