<> class =” x class> “x class =" x "> x class =" x "> x class =" x ">
راهنمای آینده ETL: EL + T نه ELT
نحوه ذخیره و مدیریت داده ها به طور کامل تغییر کرده است دهه گذشته ما از یک دنیای ETL به یک جهان ELT منتقل شدیم ، شرکت هایی مانند Fivetran این روند را تحت فشار قرار دادند. با این حال ، ما فکر نمی کنیم که این در اینجا متوقف شود. ELT یک انتقال در ذهن ما به سمت EL + T است (با EL جدا شده از T). و برای درک این موضوع ، باید دلایل اساسی این روند را تشخیص دهیم ، زیرا ممکن است آنچه را که در آینده انتظار می رود نشان دهند. p>
این همان کاری است که در این مقاله انجام خواهیم داد.
من یکی از بنیانگذاران Airbyte ، استاندارد جدید منبع باز جدید برای ادغام داده ها هستم. p>
مشکلات ETL چیست؟ h2 >
از نظر تاریخی ، روند خط لوله داده شامل استخراج ، تبدیل و بارگیری داده ها به یک انبار یا یک دریاچه داده بود. این توالی معایب جدی دارد. p>
انعطاف ناپذیری strong>
ETL ذاتاً سفت و سخت است. تجزیه و تحلیلگران داده را وادار می کند که قبل از هر راهی که قصد استفاده از داده ها را دارند ، و هر گزارشی را که می خواهند تهیه کنند ، بدانند. هر تغییری که انجام دهند می تواند هزینه بر باشد. این می تواند به طور بالقوه بر مصرف کنندگان داده در پایین دست استخراج اولیه تأثیر بگذارد. p>
عدم دید strong>
هر تحولی که در داده ها برخی از اطلاعات اساسی را پنهان می کند. تحلیلگران همه داده ها را در انبار مشاهده نخواهند کرد ، فقط داده هایی را که در مرحله تحول نگهداری شده اند. این خطرناک است ، زیرا ممکن است براساس داده هایی که به درستی برش داده نشده است نتیجه گیری شود. p>
عدم خودمختاری تحلیلگران strong>
آخرین اما مهمتر از همه ، ساخت خط لوله داده مبتنی بر ETL اغلب فراتر از توانایی های فنی تحلیلگران است. این معمولاً مستلزم درگیری نزدیک استعداد مهندسی ، همراه با کد اضافی برای استخراج و تبدیل هر منبع داده است. p>
جایگزین یک پروژه مهندسی پیچیده ، انجام تجزیه و تحلیل و ایجاد گزارش در مورد است. مبنای موقت ، زمان بر و در نهایت ناپایدار. p>
چه چیزی تغییر کرد و چرا ELT روش بهتری است h2>
محاسبه و ذخیره سازی مبتنی بر ابر داده strong>
روش ETL به دلیل هزینه های بالای محاسبه و ذخیره سازی در محل ، زمانی ضروری بود. با رشد سریع انبارهای داده مبتنی بر ابر مانند Snowflake و کاهش شدید هزینه محاسبات و ذخیره سازی مبتنی بر ابر ، دلیل کمی برای ادامه انجام تحولات قبل از بارگیری در مقصد نهایی وجود ندارد. در واقع ، ورق زدن این دو تحلیل گران را قادر می سازد تا کار بهتری را به روشی مستقل انجام دهند. p>
ELT از تصمیم گیری چابک برای تحلیلگران پشتیبانی می کند strong>
وقتی تحلیلگران می توانند داده ها را قبل از تبدیل آنها بارگیری كنند ، لازم نیست قبل از تصمیم گیری درباره طرح دقیق مورد نظر برای دریافت ، دقیقاً چه بینشی را می خواهند ایجاد كنند. p>
در عوض ، داده های منبع اصلی به طور مستقیم در یک انبار داده تکثیر می شوند ، که شامل ” یک منبع واحد از حقیقت “است. strong> سپس تحلیلگران می توانند در صورت لزوم ، داده ها را انجام دهند. تحلیلگران همیشه می توانند به داده های اصلی برگردند و دچار تحولاتی نمی شوند که ممکن است یکپارچگی داده ها را به خطر بیاندازد strong> به آنها دست آزاد می دهید. این باعث می شود فرآیند هوش تجاری انعطاف پذیرتر و ایمن تر باشد. p>
ELT سواد داده را در کل شرکت گسترش می دهد strong>
هنگامی که در ترکیب با ابزارهای هوش تجاری مبتنی بر ابر مانند Looker ، Mode و Tableau استفاده می شود ، رویکرد ELT دسترسی به مجموعه ای از تجزیه و تحلیل های مشترک در سازمان ها را نیز گسترش می دهد. داشبوردهای هوش تجاری حتی برای کاربران نسبتاً غیرفنی نیز قابل دسترسی هستند. p>
ما نیز در Airbyte طرفداران بزرگ ELT هستیم. اما ELT به طور کامل مشکل ادغام داده ها را حل نمی کند و خود مشکلاتی دارد. ما فکر می کنیم که EL باید کاملاً از T. جدا شود. p>
اکنون چه چیزی تغییر می کند و چرا EL + T آینده است h2>
ادغام دریاچه ها و انبارهای داده strong>
تحلیلی عالی توسط آندرسن هوروویتس در مورد چگونگی تکامل زیرساخت های داده انجام شد. در اینجا نمودار معماری زیرساخت داده مدرن است که آنها پس از مصاحبه های زیادی با رهبران صنعت به دست آوردند. p>
زیرساخت های داده در سطح بالا دو هدف را دنبال می کنند: p> < ul>
دو اکوسیستم موازی در اطراف این موارد استفاده گسترده رشد کرده اند. p>
داده ها انبار پایه و اساس اکوسیستم تجزیه و تحلیل را تشکیل می دهد. بیشتر انبارها داده ها را در قالب ساختاری ذخیره می کنند. اینها برای تولید بینش از معیارهای اصلی تجارت ، معمولاً با SQL طراحی شده اند (اگرچه محبوبیت پایتون رو به افزایش است). p>
دریاچه داده ستون فقرات اکوسیستم عملیاتی است. با ذخیره سازی داده ها به صورت خام ، انعطاف پذیری ، مقیاس و عملکرد لازم برای برنامه ها و نیازهای پیشرفته تر پردازش داده را فراهم می کند. دریاچه های داده روی طیف گسترده ای از زبانها از جمله جاوا / اسکالا ، پایتون ، R و SQL کار می کنند. p>
آنچه واقعاً جالب است این است که انبارهای داده مدرن و دریاچه های داده شروع به شباهت با یکدیگر می کنند. – هر دو گزینه ذخیره سازی کالا ، مقیاس گذاری افقی بومی ، انواع داده های نیمه ساختاریافته ، معاملات ACID ، پرس و جوهای SQL تعاملی و غیره را ارائه می دهند. در مسیری به سمت همگرایی قرار دارند. آیا آنها در یک پشته قابل تعویض خواهند بود؟ آیا از انبارهای داده برای موارد استفاده عملی نیز استفاده خواهد شد؟ p>
EL + T از هر دو مورد استفاده پشتیبانی می کند: کلاس تجزیه و تحلیل و ML
EL ، بر خلاف ELT ، قسمت Extract-Load را از هرگونه تغییر اختیاری که ممکن است رخ دهد ، کاملاً جدا می کند. p>
موارد استفاده عملی از نظر ورودی ، بی نظیر هستند اهرم داده ها برخی ممکن است از یک فرآیند تغییر شکل منحصر به فرد استفاده کنند. برخی حتی ممکن است از هیچ تغییر و تحولی استفاده نکنند. p>
در رابطه با مورد تحلیلی ، تحلیلگران باید داده های دریافتی را برای نیازهای خود در یک مرحله عادی کنند. اما جدا کردن EL از T به آنها امکان می دهد هر کدام از ابزارهای نرمال سازی را که می خواهند انتخاب کنند. DBT اخیراً مورد توجه بسیاری از تیم های مهندسی داده و علوم داده قرار گرفته است. این یک استاندارد منبع باز برای تحول شده است. حتی Fivetran با آنها ادغام می شود تا اگر تیم به آن عادت کرده است از DBT استفاده کند. p>
مقیاس های سریعتر EL و افزایش کل اکوسیستم strong>
< p class = "paragraf"> تحول جایی است که همه موارد لبه نهفته است. برای هر نیاز خاص در هر شرکت ، یک برنامه عادی برای آن وجود دارد ، و برای هر یک از ابزارها. p>
با جدا کردن اتصال EL از T ، این صنعت را قادر می سازد تا شروع به پوشاندن دم بلند اتصالات کنید. در Airbyte ، ما در حال ساخت “کارخانه تولید اتصالات” هستیم تا بتوانیم در عرض چند ماه به 1000 اتصال دهنده از قبل ساخته شده برسیم. p>
علاوه بر این ، همانطور که در بالا ذکر شد ، این امر کمک می کند تیم ها از کل اکوسیستم به روش آسانتری استفاده می کنند. شما شروع به دیدن یک استاندارد منبع باز برای هر نوع نیاز می کنید. به تعبیری ، ساختار داده های آینده ممکن است به این شکل باشد: p>
در پایان ، استخراج و بار از تغییر شکل جدا می شود. آیا با ما موافقید؟ در این صورت ، شاید علاقه مند باشید نگاهی به آنچه Airbyte انجام می دهد داشته باشید. p>
قبلاً در https://airbyte.io/articles/data-engineering-thoughts/why-the منتشر شده بود -future-of-etl-is-not-elt-but-el /
مرتبط h4>
div>
< p> داستان قبل از شکلک span>
داستان قبل از شکلک span>
d iv>
برچسب ها h4>
به هکر ظهر بپیوندید
حساب رایگان خود را ایجاد کنید تا قفل تجربه خواندن سفارشی خود را باز کنید .
داستان قبل از شکلک span>
برچسب ها h4>
به هکر ظهر بپیوندید
حساب رایگان خود را ایجاد کنید تا قفل تجربه خواندن سفارشی خود را باز کنید .
حساب رایگان خود را ایجاد کنید تا قفل تجربه خواندن سفارشی خود را باز کنید .