همانطور که دریاچه های داده رشد می کنند، تجزیه و تحلیل و به دست آوردن بینش از مقدار انبوه داده های درون آنها دشوارتر می شود. با توجه به اینکه حجم داده های جهانی پیش بینی می شود تا سال 2025 به 175 زتابایت برسد، این چالش کوچکی نیست. دریاچه های داده می توانند به سرعت به باتلاق های داده تبدیل شوند، جایی که یافتن و شناسایی داده ها به عنوان مقیاس حجم به سمت بالا چالش برانگیزتر است.
برای اپراتورهای مرکز داده، این کار سخت، وقت گیر و پرهزینه است. تیم ها ممکن است نتوانند آنچه را که نیاز دارند پیدا کنند – و حتی ممکن است ندانند در وهله اول کجا را جستجو کنند. برای کاربر نهایی، بینشهای ارزشمندی ممکن است در باتلاق یافت نشوند – بینشهایی که میتوانند بر کار در دست تأثیر بگذارند، خواه تحقیقات پزشکی، تراکنشهای مالی، گزارشهای خردهفروشی یا به سادگی اجرای کارآمدتر سیستمهای تجارت الکترونیک.
به طور سنتی، تیم ها با استفاده از سیستم های مدیریت پایگاه داده، انبارهای داده ایجاد می کردند. علاوه بر این، از آنجایی که بسیاری از پایگاههای داده برای دادههای بدون ساختار مناسب نیستند، ممکن است از یک مخزن سیستم فایل جداگانه برای مرتبط کردن فایلهای مرتبط، تصاویر، گزارشها و سایر دادههای بزرگ استفاده شود. متأسفانه، این امر اپراتورهای مرکز داده را با نیاز به مدیریت دو مخزن داده و همگام نگه داشتن آنها در هنگام تغییر داده، تحت فشار قرار داد.
تیم ها اغلب تناسب و قابلیت های ابزارهای تحلیلی خود را در ساخت دریاچه های داده در اولویت قرار می دهند. در عوض، آنها باید به دقت به مخزن ذخیره سازی که داده ها را در خود جای می دهد نگاه کنند تا مطمئن شوند که می تواند:
- پردازش داده ها از منابع مختلف
- مقیاس عملکرد و ظرفیت، و
- داده ها را در دسترس کاربران و برنامه های مناسب قرار دهید.
سیستمهای فایل در مقابل ذخیرهسازی شی برای دریاچههای داده
همانطور که گفته شد، سیستم های مدیریت پایگاه داده رابطه ای سنتی (RDBMS) یک ساختار سخت و سفت و سخت بر روی داده ها تحمیل کردند و اپراتورهای مرکز داده را ملزم کردند تا مراحل پیچیده Extract/Transform/Load (ETL) را بر روی داده ها انجام دهند تا آن ها را در مدل پایگاه داده قرار دهند. امروزه، جذابیت اصلی یک دریاچه داده این است که توسعه دهندگان می توانند داده ها را از هر منبع خارجی و در هر قالبی صادر و تخلیه کنند.

جورجیو رگنی، CTO و یکی از بنیانگذاران Scality
افزودن یک سیستم فایل دو ضرر عمده برای دریاچه های داده به همراه داشت:
- هیچ کاربر یا متادیتای کاربردی قابل توسعه پشتیبانی نمیشود: این نیاز به یک سیستم پایگاه داده جداگانه را برای جمعآوری برچسبها و ویژگیهای مورد نیاز برای افزودن طبقهبندی و غنیسازی دادههای ذخیرهشده در سیستم فایل، و برای فعال کردن پرسوجوهای بهینهشده برای فهرست، تحمیل میکند. مدیریت دو سیستم برای اپراتورهای مرکز داده سنگین است.
- سیستم های فایل دارای یک ساختار ثابت و سفت و سخت هستند که توسط سلسله مراتب پوشه های معمول تحمیل شده است: در واقع تنها یک راه برای دسترسی به داده ها وجود دارد و آن این است که در سلسله مراتب سیستم فایل حرکت کنید تا زمانی که کاربر آنچه را که نیاز دارد پیدا کند. این ناکارآمد است، اما مهمتر از آن، ثابت و ثابت است.
در مقابل، فروشگاه های اشیاء مزایای قانع کننده ای برای دریاچه های داده ارائه می دهند، یعنی:
- حذف نیاز به یک پایگاه داده جداگانه از طریق ابرداده توسعه پذیر: فروشگاه های اشیاء می توانند هر دو ذخیره سازی برای بارهای داده به علاوه ابرداده قابل توسعه (کاربر یا برنامه تعریف شده) که با هر شی ذخیره می شود را مدیریت کنند. این نیاز به یک پایگاه داده جدا از راه حل ذخیره سازی را حذف می کند، همانطور که در یک سیستم فایل مورد نیاز است. فراداده ها را می توان به صورت پویا در طول زمان برای افزودن زمینه/معناشناسی/ طبقه بندی به داده ها استفاده کرد. به آن مانند تفاوت بین سیستم ایمیل قدیمی MS Outlook در مقابل Gmail فکر کنید، که برچسبها و برچسبهایی را برای افزودن ساختار به محتوای ایمیل ارائه میدهد.
- افزایش کارایی: برخی از سیستمهای ذخیرهسازی اشیاء سازمانی همچنین از جستجوی فراداده یکپارچه با قابلیتهای جستجوی بهینهشده برای فهرست پشتیبانی میکنند – با جایگزینی اسکنهای زمانبر داده با جستجوی سریع فهرست، زمانهای پرسوجو را بسته به اندازه مجموعه دادهها از ساعت به دقیقه کاهش میدهند.
- مدیریت سیستم های واحد برای اپراتورهای مرکز داده: با جمع کردن ذخیره سازی دریاچه داده از یک پایگاه داده به اضافه یک سیستم فایل، مدیریت ساده می شود. مدیریت کاربر و عملکرد، نظارت و مقیاس بندی سیستم ادغام شده است. دریاچه داده را می توان به صورت یکپارچه در صورت نیاز رشد داد، که زمان کار مداوم را بدون توقف یا اختلال تضمین می کند.
- مسیرهای دسترسی نامحدود به دادهها: ذخیرهسازی اشیا دسترسی به دادهها را به ترتیب زمانی، با پیشوند کلید یا با ترتیب ابردادهها امکانپذیر میسازد. کاربران می توانند مستقیماً با کلید به اشیاء منفرد دسترسی داشته باشند یا فهرستی از اشیاء را انجام دهند، حتی با فیلترهای مبتنی بر برچسب – یا جستجوهایی را بر اساس ابرداده انجام دهند.
مورد استفاده: دادههای جریان سنسور و رویداد
یک ارائهدهنده بزرگ سیستمهای فناوری اطلاعات راهحلهای ذخیرهسازی مبتنی بر سیستم فایل را در یک سیستم پشتیبانی مشتری برای افزایش قابل توجهی در انعطافپذیری، دسترسی و عملکرد جایگزین کرد. یک سیستم فایل جریانی مداوم از تلهمتری از راه دور را از هزاران سیستم مستقر در سراسر جهان در مراکز داده مشتریان ذخیره میکرد و سیل جدیدی از دادهها و فرادادههای جریان سنسور، گزارش و رویداد را ایجاد کرده بود. به طور جداگانه، یک راه حل تجزیه و تحلیل داده های بزرگ که برای بررسی داده های مخزن ذخیره سازی برای الگوهای غیرعادی استفاده می شود که می تواند نشان دهنده ایرادات معلق یا احتمالی باشد، سیستم ذخیره فایل خود را داشت. سازمان به دنبال قابلیت جستجوی سریعتر برای جستجوی سوابق و اطلاعات سیستم بود – سرعتی که همچنین میتواند خدمات پیشگیرانه مشتری را بهبود بخشد.
دریاچه داده جدید که بر پایه ذخیره سازی اشیاء ساخته شده بود، راه حل دو سیستمی قدیمی را حذف کرد و هر دو را به یک پلتفرم ذخیره سازی شیء واحد و مدیریت آسان که شامل قابلیت های فراداده و پرس و جو یکپارچه می شد، همگرا کرد. چهار تا پنج ترابایت داده جدید دریافت شده در روز را در خود جای می دهد که 52 درصد بیشتر از سیستم قبلی است. مقیاس بندی ساده شده است و پرس و جوها تا 1000 برابر سریعتر انجام می شوند.
ایجاد دریاچه داده بهینه
ذخیرهسازی اشیا به بهینهسازی دریاچههای داده در طول زمان کمک میکند، زیرا اطلاعات را در ظروف با اندازههای انعطافپذیر سازماندهی میکند. هر شی شامل خود داده و همچنین فراداده مرتبط است و به جای نام و مسیر فایل، یک شناسه منحصر به فرد جهانی دارد. این سیستمها را میتوان با ویژگیهای سفارشی برای مدیریت اطلاعات اضافی مرتبط با فایل، که یافتن اطلاعات مورد نیاز را بسیار آسانتر میکند، افزود. هیچ محدودیتی در حجم داده وجود ندارد، که با توجه به اینکه دریاچه های داده می توانند به سرعت به مقیاس پتابایت و فراتر از آن برسند مهم است.
با ذخیره سازی اشیا، اپراتورهای مرکز داده می توانند ظرفیت و مقیاس افزایش یافته را مدیریت کنند، زیرا داده ها همچنان در حال تکثیر هستند و از منابع مختلف دریافت می شوند. آنها دیگر سعی نمیکنند از میان سوپ غلیظی از گل و لای، به بیان استعارهای بگذرند – و در عوض پلت فرمی دارند که بر روی آن یک دریاچه دادهای چابک و مدرن برای عملکرد بهینه بسازند.
جورجیو رگنی مدیر ارشد فناوری و یکی از بنیانگذاران Scality است، ارائهدهنده نرمافزار ذخیرهسازی که به شرکتها کمک میکند تا مدیریت دادهها را متحد کنند و از دادهها در محل یا در محیطهای ترکیبی و چند ابری محافظت کنند. او متخصص نرم افزار زیرساخت های توزیع شده در مقیاس وب با چندین اختراع ایالات متحده برای سیستم های توزیع شده است.