Build vs Buy: آنچه با اجرای کاتالوگ داده آموختیم

تصویر
عکس پروفایل ظهر هکر Delhivery

@delhiverydataتحویل کالا

تیم Data Science پشت Delhivery ، پلتفرم پیشگام تحقق تجارت هند برای تجارت دیجیتال است

من به عنوان مدیر مهندسی داده در Delhivery (پیشروترین پلت فرم تحقق تجارت هند در تجارت دیجیتال) ، با حجم عظیمی از داده ها احاطه شده ام. به طور دقیق بیش از 1.2 ترابایت در روز.

تحویل کالا یک میلیون بسته در روز ، 365 روز در سال را تحقق می بخشد. 24 مرکز مرتب سازی خودکار ، 85+ مرکز تحقق ، 70 مرکز ، 3000+ مرکز تحویل مستقیم ، 7،500+ مرکز شریک ، 15،000+ وسیله نقلیه و 40،000+ اعضای تیم به لطف شبکه گسترده ای از دستگاه های اینترنت اشیا بدون مشکل کار می کنند. تقریباً 60،000 رویداد و پیام داده ای وجود دارد که در هر ثانیه از خط لوله ما خارج و خارج می شوند.

با این داده های زیاد ، احتمالاً جای تعجب نیست که کشف و سازماندهی داده ها یک چالش بزرگ است.

ما سرانجام راه حل فهرست نویسی داده های رویایی خود را پیدا کردیم ، اما کار ساده ای نبود.

در Delhivery ، ما سفر خود را با یک کاتالوگ داده در سال 2019 آغاز کردیم. طی یک و نیم سال آینده ، چندین نوع راه حل مختلف را در نظر گرفتیم و سرمایه گذاری کردیم. ما کاتالوگهای داده متمرکز بر شرکت (مانند Alation ، Collibra و Waterline) را ارزیابی کردیم ، کاتالوگ خود را با Atlas و Amundsen ساختیم و بعداً فضای کاری مدرن داده SaaS ، Atlan را پذیرفتیم.

در این پست وبلاگ ، من همه …