ساختار دریاچه های داده برای عملکرد بهینه در عملیات مرکز داده | دانش مرکز داده

همانطور که دریاچه های داده رشد می کنند، تجزیه و تحلیل و به دست آوردن بینش از مقدار انبوه داده های درون آنها دشوارتر می شود. با توجه به اینکه حجم داده های جهانی پیش بینی می شود تا سال 2025 به 175 زتابایت برسد، این چالش کوچکی نیست. دریاچه های داده می توانند به سرعت به باتلاق های داده تبدیل شوند، جایی که یافتن و شناسایی داده ها به عنوان مقیاس حجم به سمت بالا چالش برانگیزتر است.

برای اپراتورهای مرکز داده، این کار سخت، وقت گیر و پرهزینه است. تیم ها ممکن است نتوانند آنچه را که نیاز دارند پیدا کنند – و حتی ممکن است ندانند در وهله اول کجا را جستجو کنند. برای کاربر نهایی، بینش‌های ارزشمندی ممکن است در باتلاق یافت نشوند – بینش‌هایی که می‌توانند بر کار در دست تأثیر بگذارند، خواه تحقیقات پزشکی، تراکنش‌های مالی، گزارش‌های خرده‌فروشی یا به سادگی اجرای کارآمدتر سیستم‌های تجارت الکترونیک.

به طور سنتی، تیم ها با استفاده از سیستم های مدیریت پایگاه داده، انبارهای داده ایجاد می کردند. علاوه بر این، از آنجایی که بسیاری از پایگاه‌های داده برای داده‌های بدون ساختار مناسب نیستند، ممکن است از یک مخزن سیستم فایل جداگانه برای مرتبط کردن فایل‌های مرتبط، تصاویر، گزارش‌ها و سایر داده‌های بزرگ استفاده شود. متأسفانه، این امر اپراتورهای مرکز داده را با نیاز به مدیریت دو مخزن داده و همگام نگه داشتن آنها در هنگام تغییر داده، تحت فشار قرار داد.

تیم ها اغلب تناسب و قابلیت های ابزارهای تحلیلی خود را در ساخت دریاچه های داده در اولویت قرار می دهند. در عوض، آنها باید به دقت به مخزن ذخیره سازی که داده ها را در خود جای می دهد نگاه کنند تا مطمئن شوند که می تواند:

  1. پردازش داده ها از منابع مختلف
  2. مقیاس عملکرد و ظرفیت، و
  3. داده ها را در دسترس کاربران و برنامه های مناسب قرار دهید.

سیستم‌های فایل در مقابل ذخیره‌سازی شی برای دریاچه‌های داده

همانطور که گفته شد، سیستم های مدیریت پایگاه داده رابطه ای سنتی (RDBMS) یک ساختار سخت و سفت و سخت بر روی داده ها تحمیل کردند و اپراتورهای مرکز داده را ملزم کردند تا مراحل پیچیده Extract/Transform/Load (ETL) را بر روی داده ها انجام دهند تا آن ها را در مدل پایگاه داده قرار دهند. امروزه، جذابیت اصلی یک دریاچه داده این است که توسعه دهندگان می توانند داده ها را از هر منبع خارجی و در هر قالبی صادر و تخلیه کنند.

جورجیو رگنی، CTO و یکی از بنیانگذاران Scality

افزودن یک سیستم فایل دو ضرر عمده برای دریاچه های داده به همراه داشت:

  • هیچ کاربر یا متادیتای کاربردی قابل توسعه پشتیبانی نمی‌شود: این نیاز به یک سیستم پایگاه داده جداگانه را برای جمع‌آوری برچسب‌ها و ویژگی‌های مورد نیاز برای افزودن طبقه‌بندی و غنی‌سازی داده‌های ذخیره‌شده در سیستم فایل، و برای فعال کردن پرس‌و‌جوهای بهینه‌شده برای فهرست، تحمیل می‌کند. مدیریت دو سیستم برای اپراتورهای مرکز داده سنگین است.
  • سیستم های فایل دارای یک ساختار ثابت و سفت و سخت هستند که توسط سلسله مراتب پوشه های معمول تحمیل شده است: در واقع تنها یک راه برای دسترسی به داده ها وجود دارد و آن این است که در سلسله مراتب سیستم فایل حرکت کنید تا زمانی که کاربر آنچه را که نیاز دارد پیدا کند. این ناکارآمد است، اما مهمتر از آن، ثابت و ثابت است.

در مقابل، فروشگاه های اشیاء مزایای قانع کننده ای برای دریاچه های داده ارائه می دهند، یعنی:

  • حذف نیاز به یک پایگاه داده جداگانه از طریق ابرداده توسعه پذیر: فروشگاه های اشیاء می توانند هر دو ذخیره سازی برای بارهای داده به علاوه ابرداده قابل توسعه (کاربر یا برنامه تعریف شده) که با هر شی ذخیره می شود را مدیریت کنند. این نیاز به یک پایگاه داده جدا از راه حل ذخیره سازی را حذف می کند، همانطور که در یک سیستم فایل مورد نیاز است. فراداده ها را می توان به صورت پویا در طول زمان برای افزودن زمینه/معناشناسی/ طبقه بندی به داده ها استفاده کرد. به آن مانند تفاوت بین سیستم ایمیل قدیمی MS Outlook در مقابل Gmail فکر کنید، که برچسب‌ها و برچسب‌هایی را برای افزودن ساختار به محتوای ایمیل ارائه می‌دهد.
  • افزایش کارایی: برخی از سیستم‌های ذخیره‌سازی اشیاء سازمانی همچنین از جستجوی فراداده یکپارچه با قابلیت‌های جستجوی بهینه‌شده برای فهرست پشتیبانی می‌کنند – با جایگزینی اسکن‌های زمان‌بر داده با جستجوی سریع فهرست، زمان‌های پرس‌وجو را بسته به اندازه مجموعه داده‌ها از ساعت به دقیقه کاهش می‌دهند.
  • مدیریت سیستم های واحد برای اپراتورهای مرکز داده: با جمع کردن ذخیره سازی دریاچه داده از یک پایگاه داده به اضافه یک سیستم فایل، مدیریت ساده می شود. مدیریت کاربر و عملکرد، نظارت و مقیاس بندی سیستم ادغام شده است. دریاچه داده را می توان به صورت یکپارچه در صورت نیاز رشد داد، که زمان کار مداوم را بدون توقف یا اختلال تضمین می کند.
  • مسیرهای دسترسی نامحدود به داده‌ها: ذخیره‌سازی اشیا دسترسی به داده‌ها را به ترتیب زمانی، با پیشوند کلید یا با ترتیب ابرداده‌ها امکان‌پذیر می‌سازد. کاربران می توانند مستقیماً با کلید به اشیاء منفرد دسترسی داشته باشند یا فهرستی از اشیاء را انجام دهند، حتی با فیلترهای مبتنی بر برچسب – یا جستجوهایی را بر اساس ابرداده انجام دهند.

مورد استفاده: داده‌های جریان سنسور و رویداد

یک ارائه‌دهنده بزرگ سیستم‌های فناوری اطلاعات راه‌حل‌های ذخیره‌سازی مبتنی بر سیستم فایل را در یک سیستم پشتیبانی مشتری برای افزایش قابل توجهی در انعطاف‌پذیری، دسترسی و عملکرد جایگزین کرد. یک سیستم فایل جریانی مداوم از تله‌متری از راه دور را از هزاران سیستم مستقر در سراسر جهان در مراکز داده مشتریان ذخیره می‌کرد و سیل جدیدی از داده‌ها و فراداده‌های جریان سنسور، گزارش و رویداد را ایجاد کرده بود. به طور جداگانه، یک راه حل تجزیه و تحلیل داده های بزرگ که برای بررسی داده های مخزن ذخیره سازی برای الگوهای غیرعادی استفاده می شود که می تواند نشان دهنده ایرادات معلق یا احتمالی باشد، سیستم ذخیره فایل خود را داشت. سازمان به دنبال قابلیت جستجوی سریع‌تر برای جستجوی سوابق و اطلاعات سیستم بود – سرعتی که همچنین می‌تواند خدمات پیشگیرانه مشتری را بهبود بخشد.

دریاچه داده جدید که بر پایه ذخیره سازی اشیاء ساخته شده بود، راه حل دو سیستمی قدیمی را حذف کرد و هر دو را به یک پلتفرم ذخیره سازی شیء واحد و مدیریت آسان که شامل قابلیت های فراداده و پرس و جو یکپارچه می شد، همگرا کرد. چهار تا پنج ترابایت داده جدید دریافت شده در روز را در خود جای می دهد که 52 درصد بیشتر از سیستم قبلی است. مقیاس بندی ساده شده است و پرس و جوها تا 1000 برابر سریعتر انجام می شوند.

ایجاد دریاچه داده بهینه

ذخیره‌سازی اشیا به بهینه‌سازی دریاچه‌های داده در طول زمان کمک می‌کند، زیرا اطلاعات را در ظروف با اندازه‌های انعطاف‌پذیر سازمان‌دهی می‌کند. هر شی شامل خود داده و همچنین فراداده مرتبط است و به جای نام و مسیر فایل، یک شناسه منحصر به فرد جهانی دارد. این سیستم‌ها را می‌توان با ویژگی‌های سفارشی برای مدیریت اطلاعات اضافی مرتبط با فایل، که یافتن اطلاعات مورد نیاز را بسیار آسان‌تر می‌کند، افزود. هیچ محدودیتی در حجم داده وجود ندارد، که با توجه به اینکه دریاچه های داده می توانند به سرعت به مقیاس پتابایت و فراتر از آن برسند مهم است.

با ذخیره سازی اشیا، اپراتورهای مرکز داده می توانند ظرفیت و مقیاس افزایش یافته را مدیریت کنند، زیرا داده ها همچنان در حال تکثیر هستند و از منابع مختلف دریافت می شوند. آن‌ها دیگر سعی نمی‌کنند از میان سوپ غلیظی از گل و لای، به بیان استعاره‌ای بگذرند – و در عوض پلت فرمی دارند که بر روی آن یک دریاچه داده‌ای چابک و مدرن برای عملکرد بهینه بسازند.


جورجیو رگنی مدیر ارشد فناوری و یکی از بنیانگذاران Scality است، ارائه‌دهنده نرم‌افزار ذخیره‌سازی که به شرکت‌ها کمک می‌کند تا مدیریت داده‌ها را متحد کنند و از داده‌ها در محل یا در محیط‌های ترکیبی و چند ابری محافظت کنند. او متخصص نرم افزار زیرساخت های توزیع شده در مقیاس وب با چندین اختراع ایالات متحده برای سیستم های توزیع شده است.

سئو PBN | خبر های جدید سئو و هک و سرور
مطالب پیشنهادی  مایکروسافت، GitHub، OpenAI Hit با کد حقوقی حق چاپ | دانش مرکز داده