هنگامی که این ایده در اوایل دهه 2010 مطرح شد، دریاچه داده از نظر برخی افراد مانند معماری مناسب در زمان مناسب بود. دریاچه داده یک مخزن داده بدون ساختار بود که از هزینه کم جدید استفاده می کرد فرمت های ذخیره سازی اشیاء ابری مانند S3 آمازون. این می تواند حجم زیادی از داده ها را در خود نگه دارد و سپس از وب خارج می شود.
با این حال، برای دیگران، دریاچه داده یک «بازار» بود که به راحتی قابل تمسخر بود. مردم این طرف آن را “باتلاق داده” نامیدند. بسیاری در این اردوگاه طرفدار انبار داده های رابطه ای قدیمی – اما نه ارزان – بودند.
علیرغم شک و تردیدها، دریاچه داده تکامل یافته و بالغ شده است و آن را به یک جزء مهم از چشم انداز هوش مصنوعی و تحلیلی امروزی تبدیل کرده است.
با تمرکز مجدد بر روی معماری داده ها توسط هوش مصنوعی مولد، ما نگاهی دقیق تر به چگونگی دگرگونی دریاچه های داده و نقشی که اکنون در تامین انرژی پیشرفته ایفا می کنند می اندازیم. هوش مصنوعی تجزیه و تحلیل
نیاز به دریاچه های داده
مزایای پیادهسازی دریاچه داده برای شرکتهای جوانی که به دنبال بینش مبتنی بر داده در تجارت الکترونیک و زمینههای مرتبط هستند، بسیار زیاد بود.
آمازون، گوگل، یاهو، نتفلیکس، فیس بوک و دیگران ابزارهای داده خود را ساختند. اینها اغلب بر اساس Apache Hadoop و موتورهای توزیع شده مبتنی بر Spark بودند. سیستمهای جدید انواع دادههایی را مدیریت میکردند که ساختار کمتری نسبت به انواع دادههای رابطهای موجود در انبارهای دادههای تحلیلی آن روز داشتند.
برای مهندسان سیستم آن دوره، این معماری مزایایی را نشان داد. «Swamp» یا «Lake»، میتواند زیربنای برنامههای پیشگام برای جستجو، تشخیص ناهنجاری، بهینهسازی قیمت، تجزیه و تحلیل مشتری، موتورهای توصیه و موارد دیگر باشد.
قطره ای در اقیانوس: دریاچه های داده پتانسیل گسترده و دست نخورده ای را در خود جای داده اند – امروزه حجم عظیمی از داده را ذخیره می کنند تا بینش های فردا و پیشرفت های هوش مصنوعی را هدایت کنند.
این مدیریت انعطافپذیرتر داده، نیاز اساسی غولهای وب در حال رشد بود. آنچه نویسنده از تجزیه و تحلیل توزیع شدهتوماس دینزمور، که «سونامی» متن، تصاویر، صدا، ویدئو و سایر دادهها را برای پردازش توسط پایگاههای داده رابطهای و انبارهای داده نامناسب مینامید. اشکال دیگر: هزینههای ذخیرهسازی داده با بارگیری هر دسته از دادهها به تدریج افزایش یافت.
دوست داشته باشید یا نه، دریاچه های داده همچنان پر از داده ها هستند. در مدیریت داده ها، مهندسان داده می توانند «اکنون ذخیره کنند» و تصمیم بگیرند که بعداً با داده ها چه کاری انجام دهند. اما معماری پایه دریاچه داده با قابلیت های پیشرفته تری برای کشف و مدیریت داده ها گسترش یافته است.
این تکامل توسط راه حل های خانگی و همچنین راه حل های استارت آپ های ستاره ای مانند Databricks و دانه برف، اما بسیاری دیگر در حال مبارزه هستند. معماریهای متنوع آنها امروزه زیر ذره بین است زیرا برنامهریزان مراکز داده به دنبال تلاشهای جدید هوش مصنوعی هستند.
تکامل دریاچه داده ها: از دریاچه ها تا خانه های دریاچه
بازیکنان در مسابقه دریاچه داده عبارتند از Amazon Lake Formation، Cloudera Open Data Lakehouse، Dell Data Lakehouse، Dremio Lakehouse Platform، Google BigLake، آی بی ام واتسونکس داده هاMicrosoft Azure Data Lake Storage, Oracle Cloud Infrastructure, انگشتر مقیاسو Starburst Galaxy، در میان دیگران.
همانطور که در آن لیتانی نشان داده شد، روند این است که پیشنهادها را به جای دریاچه های داده، “دریاچه های داده” می نامند. این نام چیزی شبیه به انبارهای داده سنتی را نشان می دهد که برای مدیریت داده های ساخت یافته طراحی شده اند. و بله، این نشان دهنده یک قیاس سخت دیگر است که مانند دریاچه داده قبل از آن، مورد بررسی دقیق قرار گرفت.
نامگذاری یک هنر در بازارهای داده است. امروزه سیستمهایی که کاستیهای اولیه دریاچه داده را برطرف میکنند بهعنوان پلتفرمهای داده یکپارچه، راهحلهای مدیریت داده ترکیبی و غیره تعیین میشوند. اما قراردادهای نامگذاری عجیب و غریب نباید پیشرفت های مهم در عملکرد را پنهان کند.
امروزه در پلتفرم های تحلیلی به روز شده، اجزای مختلف پردازش داده وجود دارد متصل به سبک خط مونتاژ. پیشرفتها برای کارخانه داده جدید ممکن است حول محورهای زیر باشد:
-
قالب های جدید جدول: ساخته شده در بالای شی ابر ذخیره سازیبرای مثال، Delta Lake و Iceberg پشتیبانی تراکنش های ACID را برای Apache Spark، Hadoop و دیگر سیستم های پردازش داده ارائه می دهند. یک قالب پارکت که اغلب مرتبط است می تواند به بهینه سازی فشرده سازی داده ها کمک کند.
-
کاتالوگ های فراداده: امکاناتی مانند Snowflake Data Catalog و Databricks Unify Catalog تنها برخی از ابزارهایی هستند که کشف داده ها را انجام می دهند و سلسله داده ها را دنبال می کنند. ویژگی دوم در تضمین کیفیت داده ها برای تجزیه و تحلیل ضروری است.
-
موتورهای پرس و جو: اینها یک رابط SQL مشترک برای پرس و جو با کارایی بالا از داده های ذخیره شده در انواع مختلف و مکان ها ارائه می دهند. PrestoDB، Trinio و Apache Spark از جمله نمونه هایی هستند.
این بهبودها مجموعاً تلاش امروزی را برای سازماندهی بیشتر، کارآمدتر و آسانتر کردن تجزیه و تحلیل دادهها توصیف میکنند.
آنها با یک نوسان قابل توجه به سمت استفاده از روشهای «اکنون بلعیده و بعداً تغییر شکل دهند» همراه هستند. این یک تلنگر بر روی توالی مرحله بندی داده آشنای انبار داده از Extract Transform Load (ETL) است. اکنون، دستور ممکن است در عوض تبدیل بار استخراج (ELT) باشد.
با هر نامی، این یک لحظه تعیین کننده برای معماری داده های پیشرفته است. آنها درست به موقع برای تلاش های جدید هوش مصنوعی مولد براق وارد شدند. اما تکامل آنها از کمد آشغال به ظرفی با تعریف بهتر به کندی توسعه یافت.
امنیت دریاچه داده و نگرانی های حاکمیتی
دریاچه های داده منجر به شکست چشمگیر داده های بزرگ شد. سانجیو موهان، مدیر مشاور فنی SanjMo، گفت که وقتی آنها برای اولین بار بیرون آمدند، چیزی پیدا نکردید. دانش مرکز داده. او گفت که حکومت و امنیت وجود ندارد.
موهان توضیح داد که آنچه مورد نیاز بود نرده های محافظ بود. این به معنای محافظت از داده ها از دسترسی غیرمجاز و احترام گذاشتن بود استانداردهای حاکمیتی مانند GDPR. این به معنای استفاده از تکنیک های فراداده برای شناسایی داده ها بود.
«نیاز اصلی امنیت است. این امر مستلزم کنترل دسترسی دقیق است – نه فقط پرتاب فایلها به دریاچه دادهها،» او گفت که اکنون رویکردهای داده دریاچه بهتر میتوانند این مشکل را برطرف کنند. اکنون، شخصیتهای مختلف در یک سازمان در تنظیمات مجوزهای مختلف منعکس میشوند.
این نوع کنترل برای دریاچههای داده اولیه، که عمدتاً سیستمهای «فقط الحاقی» بودند و بهروزرسانی آنها دشوار بود، استاندارد نبود.
قالب های جدید جدول این را تغییر داد. فرمتهای جدول مانند Delta Lake، Iceberg و Hudi در سالهای اخیر ظهور کردهاند که پیشرفتهای قابل توجهی را در پشتیبانی بهروزرسانی دادهها ارائه کردهاند.
به نوبه خود، Sanjeev Mohan گفت استانداردسازی و در دسترس بودن گسترده ابزارهایی مانند Iceberg به کاربران نهایی اهرم بیشتری در هنگام انتخاب سیستم ها می دهد. که منجر به صرفه جویی در هزینه و کنترل فنی بیشتر می شود.
سوخت رسانی به آینده: دریاچه های داده با مدیریت حجم عظیمی از داده های بدون ساختار، به تجزیه و تحلیل هوش مصنوعی پیشرفته کمک می کنند.
دریاچه های داده برای هوش مصنوعی مولد
هوش مصنوعی مولد امروزه در صدر فهرست کارهای بسیاری از شرکتها قرار دارد و دریاچههای داده و دریاچههای داده ارتباط نزدیکی با این پدیده دارند. مدلهای مولد هوش مصنوعی مشتاق اجرا بر روی دادههای با حجم بالا هستند. در عین حال، هزینه محاسبات می تواند سر به فلک بکشد.
همانطور که کارشناسان شرکت های فناوری پیشرو در حال بررسی هستند، ارتباط رو به رشد بین هوش مصنوعی و مدیریت داده ها فرصت ها و موانع کلیدی پیش رو را نشان می دهد:
ژنرال هوش مصنوعی مدیریت داده را متحول خواهد کرد
کریشنامورتی، نایب رئیس دریاچههای داده و تجزیه و تحلیل در AWS، مبتکر ذخیرهسازی اشیاء S3 و مجموعهای از ابزارهای ابری، میگوید.
کریشنامورتی گفت که انبارهای داده، دریاچه های داده و دریاچه های داده به بهبود ژنرال هوش مصنوعی کمک خواهند کرد، اما این یک خیابان دوطرفه نیز هست.
هوش مصنوعی مولد پیشرفتهایی را پرورش میدهد که میتواند فرآیند مدیریت دادهها را تا حد زیادی بهبود بخشد. این شامل آماده سازی داده ها، ساخت داشبوردهای BI و ایجاد است خطوط لوله ETL، او گفت.
کریشنامورتی گفت: «با هوش مصنوعی مولد، فرصتهای منحصربهفردی برای مقابله با جنبه فازی مدیریت دادهها وجود دارد – مواردی مانند تمیز کردن دادهها». این همیشه یک فعالیت انسانی بود و خودکارسازی چالش برانگیز بود. حالا میتونیم درخواست بدیم [generative AI] فناوری برای به دست آوردن دقت نسبتاً بالا. شما در واقع میتوانید از تعاملات مبتنی بر زبان طبیعی برای انجام بخشهایی از کارتان استفاده کنید و به طور قابلتوجهی بهرهورتر شوید.»
کریشنامورتی گفت که تلاشهای رو به رشد شرکتهایی را پیدا میکند که کار را در دریاچههای دادهای متعدد وصل کرده و بر عملیات خودکار بیشتر برای افزایش قابلیت کشف دادهها تمرکز کنند.
دریاچههای دادههای هوش مصنوعی به مراکز داده الاستیک بیشتری منجر میشوند
به گفته دیپتو چاکراوارتی، مدیر ارشد محصول، کلودرا، پیشگام Hadoop که همچنان به ارائه ابزارهای جدید داده گرا ادامه می دهد.
او گفت که هوش مصنوعی قوانین موجود بازی را به چالش می کشد. این بدان معناست که ابزار دریاچه دادهای که میتواند کاهش و همچنین افزایش مقیاس داشته باشد. این به معنای پشتیبانی از محاسبات انعطاف پذیر در مراکز داده و در فضای ابری است.
«در روزهای خاصی از ماههای خاص، تیمهای داده میخواهند چیزها را به صورت اولیه جابجا کنند. مواقع دیگر، آنها می خواهند آن را به ابر منتقل کنند. اما وقتی همه این حجم کاری داده ها را به جلو و عقب منتقل می کنید، مالیاتی وجود دارد.
در زمانی که مدیران مالی به «مالیات» هوش مصنوعی – یعنی تأثیر آن بر هزینهها – توجه دارند، مرکز داده محل آزمایش خواهد بود. رهبران فناوری اطلاعات بر روی آوردن محاسبات به داده ها با مقیاس پذیری واقعاً کشسان تمرکز خواهند کرد.
“سفارشی سازی خروجی مدل بنیاد هوش مصنوعی کلیدی است”
به گفته ادوارد کالوزبرت، معاون بازاریابی محصول پلتفرم Watsonx در IBM – شرکتی که مسلماً با تلاش محاسبات شناختی Watson در اواسط دهه 2010 باعث احیای هوش مصنوعی امروزی شد، به این ترتیب زبان تجارت خود را به آن می دهید.
“شما هوش مصنوعی را با داده های خود سفارشی می کنید. این به طور موثر شرکت شما را به روشی که شما می خواهید از یک مورد استفاده و از منظر کیفیت نشان می دهد.
کالوزبرت نشان داد که دادههای Watsonx به عنوان مخزن مرکزی دادهها در اکوسیستم Watsonx عمل میکنند. اکنون زیربنای سفارشیسازی مدلهای هوش مصنوعی است که به گفته او، میتوانند در محیط فناوری اطلاعات یک شرکت قرار گیرند.
تلاش سفارشی سازی باید با مدیریت داده برای عصر جدید هوش مصنوعی همراه باشد. او گفت: «حکومت چیزی است که مدیریت چرخه حیات و نردههای نظارتی را برای اطمینان از پایبندی به خطمشیهای شرکت شما و همچنین هرگونه سیاست نظارتی فراهم میکند.»
“پردازش بیشتر در محل در حال انجام است”
به گفته جاستین بورگمن، رئیس هیئت مدیره و مدیر عامل Starburst، که کار اولیه بر روی موتور جستجوی Trino SQL را به یک پیشنهاد کامل داده lakehouse تبدیل کرده است که می تواند داده ها را از خارج از lakehouse بکشد.
او گفت که دریاچهها و خانههای دریاچهای که به خوبی مدیریت شدهاند برای پشتیبانی از حجم کاری هوش مصنوعی، از جمله موارد مرتبط با هوش مصنوعی مولد، ضروری هستند. او گفت که ما شاهد افزایش علاقه به معماری داده های ترکیبی خواهیم بود که تا حدودی ناشی از افزایش هوش مصنوعی و یادگیری ماشین است.
این حرکت در اطراف هوش مصنوعی دادههای بیشتری را به دنیای اولیه یا دنیای ترکیبی باز میگرداند. شرکتها نمیخواهند تمام دادهها و مدلهای هوش مصنوعی خود را به فضای ابری بفرستند، زیرا تحویل آنها از آنجا هزینه زیادی دارد.»
بورگمن به استفاده از موتورهای پرس و جو و محاسباتی که اساساً از ذخیرهسازی جدا شدهاند به عنوان یک روند غالب اشاره میکند – روندی که در زیرساختهای دادهای متنوعی که افراد از قبل در اختیار دارند و در دریاچههای دادههای متعدد کار میکنند. این اغلب “حرکت محاسبات به داده” نامیده می شود.
آیا داده های بیشتر همیشه بهتر است؟
حجم کاری هوش مصنوعی که بر اساس داده های مرتب نشده، ناکافی یا نامعتبر است، یک مشکل رو به رشد است. اما همانطور که تکامل دریاچه داده نشان می دهد، این یک مشکل شناخته شده است که می تواند با مدیریت داده ها برطرف شود.
مرو آدریان، تحلیلگر مستقل در IT Market Strategy، گفت: واضح است که دسترسی به حجم زیادی از داده ها اگر قابل درک نباشد مفید نیست.
«داده های بیشتر همیشه بهتر است اگر بتوانید از آن استفاده کنید. اما اگر نتوانید این کار برای شما مفید نیست.
آدریان نرمافزارهایی مانند Iceberg و Delta Lake را به عنوان یک لایه توصیفی در بالای دادههای وسیع ارائه میکند که به شما کمک میکند. هوش مصنوعی و سبک های یادگیری ماشینی تجزیه و تحلیل. سازمانهایی که روی این نوع فناوری سرمایهگذاری کردهاند، هنگام حرکت به این دنیای جدید شجاع، مزایایی را مشاهده خواهند کرد.
اما مزایای واقعی توسعه هوش مصنوعی ناشی از این است تیم های مهارتی آدریان گفت که از تجربه استفاده از این ابزارها به دست آورید.
«دریاچههای داده، انبارهای داده و پایگاه دادههای آنها امکان استفاده از انواع بیشتر و حجم بیشتری از دادهها را برای کسبوکارها فراهم کردند. این برای مدلهای هوش مصنوعی مولد، که با آموزش بر روی مجموعه دادههای بزرگ و متنوع، بهبود مییابند مفید است.»
امروزه، به هر شکلی، دریاچه داده باقی می ماند. شاید موهان به بهترین وجه آن را وقتی میگوید: «دریاچههای داده از بین نرفتهاند. زنده باد دریاچه های داده!»