ارزش مدل Lakehouse، همراه با مفهوم “تغییر سمت چپ” با انتقال مدلسازی و پردازش بیشتر دادهها از انبار داده به دریاچه داده، در چند سال گذشته شاهد استقبال و پذیرش قابل توجهی بوده است. Lakehouse عملکرد انبار داده را با استفاده از قالبهای جدول باز در یک دریاچه داده ادغام میکند و بهترینها را برای تجزیه و تحلیل و ذخیرهسازی ارائه میدهد.
فعال کردن معماری خانه دریاچه با فرمتهای جدول باز مانند Apache Iceberg، Delta Lake، Apache Hudi و Apache Paimon نیاز به مدیریت قابلیت همکاری بین این فرمتها، به ویژه در مرزهای سیستمهای داده را مطرح کرده است. در حالی که بسیاری از پیادهسازیهای lakehouse به طور یکپارچه با یک قالب جدول واحد عمل میکنند، سناریوهایی به وجود میآیند که در آن چندین قالب درگیر هستند. برای مقابله با این چالش ها، چندین راه حل پدیدار شده است.
در این وبلاگ، این راه حل ها را بررسی خواهیم کرد و در مورد زمانی که استفاده از آنها منطقی است صحبت خواهیم کرد.
راه حل ها
در اصل دو نوع راه حل قابلیت همکاری برای کار در قالب های مختلف جدول وجود دارد:
1. Mirroring Metadata
این راهحلها بر حفظ ابرداده برای فایلهای داده یکسان در قالبهای مختلف تمرکز میکنند و تعامل یکپارچه بین سیستمها را ممکن میسازند.
Apache XTable: یک پروژه منبع باز که ابتدا در Onehouse توسعه یافت و اکنون توسط انجمن مدیریت می شود،…