زمان استفاده از Apache Xtable یا Delta Lake Uniform برای قابلیت همکاری داده Lakehouse

ارزش مدل Lakehouse، همراه با مفهوم “تغییر سمت چپ” با انتقال مدل‌سازی و پردازش بیشتر داده‌ها از انبار داده به دریاچه داده، در چند سال گذشته شاهد استقبال و پذیرش قابل توجهی بوده است. Lakehouse عملکرد انبار داده را با استفاده از قالب‌های جدول باز در یک دریاچه داده ادغام می‌کند و بهترین‌ها را برای تجزیه و تحلیل و ذخیره‌سازی ارائه می‌دهد.

فعال کردن معماری خانه دریاچه با فرمت‌های جدول باز مانند Apache Iceberg، Delta Lake، Apache Hudi و Apache Paimon نیاز به مدیریت قابلیت همکاری بین این فرمت‌ها، به ویژه در مرزهای سیستم‌های داده را مطرح کرده است. در حالی که بسیاری از پیاده‌سازی‌های lakehouse به طور یکپارچه با یک قالب جدول واحد عمل می‌کنند، سناریوهایی به وجود می‌آیند که در آن چندین قالب درگیر هستند. برای مقابله با این چالش ها، چندین راه حل پدیدار شده است.

در این وبلاگ، این راه حل ها را بررسی خواهیم کرد و در مورد زمانی که استفاده از آنها منطقی است صحبت خواهیم کرد.

راه حل ها

در اصل دو نوع راه حل قابلیت همکاری برای کار در قالب های مختلف جدول وجود دارد:

1. Mirroring Metadata

این راه‌حل‌ها بر حفظ ابرداده برای فایل‌های داده یکسان در قالب‌های مختلف تمرکز می‌کنند و تعامل یکپارچه بین سیستم‌ها را ممکن می‌سازند.

Apache XTable: یک پروژه منبع باز که ابتدا در Onehouse توسعه یافت و اکنون توسط انجمن مدیریت می شود،…

Source link