معماری تفرقه انگیز عصر جدید تجزیه و تحلیل هوش مصنوعی است

هنگامی که این ایده در اوایل دهه 2010 مطرح شد، دریاچه داده از نظر برخی افراد مانند معماری مناسب در زمان مناسب بود. دریاچه داده یک مخزن داده بدون ساختار بود که از هزینه کم جدید استفاده می کرد فرمت های ذخیره سازی اشیاء ابری مانند S3 آمازون. این می تواند حجم زیادی از داده ها را در خود نگه دارد و سپس از وب خارج می شود.

با این حال، برای دیگران، دریاچه داده یک «بازار» بود که به راحتی قابل تمسخر بود. مردم این طرف آن را “باتلاق داده” نامیدند. بسیاری در این اردوگاه طرفدار انبار داده های رابطه ای قدیمی – اما نه ارزان – بودند.

علیرغم شک و تردیدها، دریاچه داده تکامل یافته و بالغ شده است و آن را به یک جزء مهم از چشم انداز هوش مصنوعی و تحلیلی امروزی تبدیل کرده است.

با تمرکز مجدد بر روی معماری داده ها توسط هوش مصنوعی مولد، ما نگاهی دقیق تر به چگونگی دگرگونی دریاچه های داده و نقشی که اکنون در تامین انرژی پیشرفته ایفا می کنند می اندازیم. هوش مصنوعی تجزیه و تحلیل

نیاز به دریاچه های داده

مزایای پیاده‌سازی دریاچه داده برای شرکت‌های جوانی که به دنبال بینش مبتنی بر داده در تجارت الکترونیک و زمینه‌های مرتبط هستند، بسیار زیاد بود.

آمازون، گوگل، یاهو، نتفلیکس، فیس بوک و دیگران ابزارهای داده خود را ساختند. اینها اغلب بر اساس Apache Hadoop و موتورهای توزیع شده مبتنی بر Spark بودند. سیستم‌های جدید انواع داده‌هایی را مدیریت می‌کردند که ساختار کمتری نسبت به انواع داده‌های رابطه‌ای موجود در انبارهای داده‌های تحلیلی آن روز داشتند.

مرتبط:گزارش DOE تأثیر حیاتی هوش مصنوعی بر مصرف برق مرکز داده را نشان می دهد

برای مهندسان سیستم آن دوره، این معماری مزایایی را نشان داد. «Swamp» یا «Lake»، می‌تواند زیربنای برنامه‌های پیشگام برای جستجو، تشخیص ناهنجاری، بهینه‌سازی قیمت، تجزیه و تحلیل مشتری، موتورهای توصیه و موارد دیگر باشد.

معماری تفرقه انگیز عصر جدید تجزیه و تحلیل هوش مصنوعی است

این مدیریت انعطاف‌پذیرتر داده، نیاز اساسی غول‌های وب در حال رشد بود. آنچه نویسنده از تجزیه و تحلیل توزیع شدهتوماس دینزمور، که «سونامی» متن، تصاویر، صدا، ویدئو و سایر داده‌ها را برای پردازش توسط پایگاه‌های داده رابطه‌ای و انبارهای داده نامناسب می‌نامید. اشکال دیگر: هزینه‌های ذخیره‌سازی داده با بارگیری هر دسته از داده‌ها به تدریج افزایش یافت.

دوست داشته باشید یا نه، دریاچه های داده همچنان پر از داده ها هستند. در مدیریت داده ها، مهندسان داده می توانند «اکنون ذخیره کنند» و تصمیم بگیرند که بعداً با داده ها چه کاری انجام دهند. اما معماری پایه دریاچه داده با قابلیت های پیشرفته تری برای کشف و مدیریت داده ها گسترش یافته است.

این تکامل توسط راه حل های خانگی و همچنین راه حل های استارت آپ های ستاره ای مانند Databricks و دانه برف، اما بسیاری دیگر در حال مبارزه هستند. معماری‌های متنوع آن‌ها امروزه زیر ذره بین است زیرا برنامه‌ریزان مراکز داده به دنبال تلاش‌های جدید هوش مصنوعی هستند.

تکامل دریاچه داده ها: از دریاچه ها تا خانه های دریاچه

مرتبط:Cloud Security Assurance: آیا اتوماسیون بازی را تغییر می دهد؟

بازیکنان در مسابقه دریاچه داده عبارتند از Amazon Lake Formation، Cloudera Open Data Lakehouse، Dell Data Lakehouse، Dremio Lakehouse Platform، Google BigLake، آی بی ام واتسونکس داده هاMicrosoft Azure Data Lake Storage, Oracle Cloud Infrastructure, انگشتر مقیاسو Starburst Galaxy، در میان دیگران.

همانطور که در آن لیتانی نشان داده شد، روند این است که پیشنهادها را به جای دریاچه های داده، “دریاچه های داده” می نامند. این نام چیزی شبیه به انبارهای داده سنتی را نشان می دهد که برای مدیریت داده های ساخت یافته طراحی شده اند. و بله، این نشان دهنده یک قیاس سخت دیگر است که مانند دریاچه داده قبل از آن، مورد بررسی دقیق قرار گرفت.

نامگذاری یک هنر در بازارهای داده است. امروزه سیستم‌هایی که کاستی‌های اولیه دریاچه داده را برطرف می‌کنند به‌عنوان پلتفرم‌های داده یکپارچه، راه‌حل‌های مدیریت داده ترکیبی و غیره تعیین می‌شوند. اما قراردادهای نامگذاری عجیب و غریب نباید پیشرفت های مهم در عملکرد را پنهان کند.

امروزه در پلتفرم های تحلیلی به روز شده، اجزای مختلف پردازش داده وجود دارد متصل به سبک خط مونتاژ. پیشرفت‌ها برای کارخانه داده جدید ممکن است حول محورهای زیر باشد:

  • قالب های جدید جدول: ساخته شده در بالای شی ابر ذخیره سازیبرای مثال، Delta Lake و Iceberg پشتیبانی تراکنش های ACID را برای Apache Spark، Hadoop و دیگر سیستم های پردازش داده ارائه می دهند. یک قالب پارکت که اغلب مرتبط است می تواند به بهینه سازی فشرده سازی داده ها کمک کند.

  • کاتالوگ های فراداده: امکاناتی مانند Snowflake Data Catalog و Databricks Unify Catalog تنها برخی از ابزارهایی هستند که کشف داده ها را انجام می دهند و سلسله داده ها را دنبال می کنند. ویژگی دوم در تضمین کیفیت داده ها برای تجزیه و تحلیل ضروری است.

  • موتورهای پرس و جو: اینها یک رابط SQL مشترک برای پرس و جو با کارایی بالا از داده های ذخیره شده در انواع مختلف و مکان ها ارائه می دهند. PrestoDB، Trinio و Apache Spark از جمله نمونه هایی هستند.

مرتبط:بزرگترین تهدیدها برای به کارگیری مرکز داده – و نحوه غلبه بر آنها

این بهبودها مجموعاً تلاش امروزی را برای سازماندهی بیشتر، کارآمدتر و آسان‌تر کردن تجزیه و تحلیل داده‌ها توصیف می‌کنند.

آنها با یک نوسان قابل توجه به سمت استفاده از روش‌های «اکنون بلعیده و بعداً تغییر شکل دهند» همراه هستند. این یک تلنگر بر روی توالی مرحله بندی داده آشنای انبار داده از Extract Transform Load (ETL) است. اکنون، دستور ممکن است در عوض تبدیل بار استخراج (ELT) باشد.

با هر نامی، این یک لحظه تعیین کننده برای معماری داده های پیشرفته است. آنها درست به موقع برای تلاش های جدید هوش مصنوعی مولد براق وارد شدند. اما تکامل آنها از کمد آشغال به ظرفی با تعریف بهتر به کندی توسعه یافت.

امنیت دریاچه داده و نگرانی های حاکمیتی

دریاچه های داده منجر به شکست چشمگیر داده های بزرگ شد. سانجیو موهان، مدیر مشاور فنی SanjMo، گفت که وقتی آنها برای اولین بار بیرون آمدند، چیزی پیدا نکردید. دانش مرکز داده. او گفت که حکومت و امنیت وجود ندارد.

موهان توضیح داد که آنچه مورد نیاز بود نرده های محافظ بود. این به معنای محافظت از داده ها از دسترسی غیرمجاز و احترام گذاشتن بود استانداردهای حاکمیتی مانند GDPR. این به معنای استفاده از تکنیک های فراداده برای شناسایی داده ها بود.

«نیاز اصلی امنیت است. این امر مستلزم کنترل دسترسی دقیق است – نه فقط پرتاب فایل‌ها به دریاچه داده‌ها،» او گفت که اکنون رویکردهای داده دریاچه بهتر می‌توانند این مشکل را برطرف کنند. اکنون، شخصیت‌های مختلف در یک سازمان در تنظیمات مجوزهای مختلف منعکس می‌شوند.

این نوع کنترل برای دریاچه‌های داده اولیه، که عمدتاً سیستم‌های «فقط الحاقی» بودند و به‌روزرسانی آن‌ها دشوار بود، استاندارد نبود.

قالب های جدید جدول این را تغییر داد. فرمت‌های جدول مانند Delta Lake، Iceberg و Hudi در سال‌های اخیر ظهور کرده‌اند که پیشرفت‌های قابل توجهی را در پشتیبانی به‌روزرسانی داده‌ها ارائه کرده‌اند.

به نوبه خود، Sanjeev Mohan گفت استانداردسازی و در دسترس بودن گسترده ابزارهایی مانند Iceberg به کاربران نهایی اهرم بیشتری در هنگام انتخاب سیستم ها می دهد. که منجر به صرفه جویی در هزینه و کنترل فنی بیشتر می شود.

Data-Lake-AI.jpg

دریاچه های داده برای هوش مصنوعی مولد

هوش مصنوعی مولد امروزه در صدر فهرست کارهای بسیاری از شرکت‌ها قرار دارد و دریاچه‌های داده و دریاچه‌های داده ارتباط نزدیکی با این پدیده دارند. مدل‌های مولد هوش مصنوعی مشتاق اجرا بر روی داده‌های با حجم بالا هستند. در عین حال، هزینه محاسبات می تواند سر به فلک بکشد.

همانطور که کارشناسان شرکت های فناوری پیشرو در حال بررسی هستند، ارتباط رو به رشد بین هوش مصنوعی و مدیریت داده ها فرصت ها و موانع کلیدی پیش رو را نشان می دهد:

ژنرال هوش مصنوعی مدیریت داده را متحول خواهد کرد

کریشنامورتی، نایب رئیس دریاچه‌های داده و تجزیه و تحلیل در AWS، مبتکر ذخیره‌سازی اشیاء S3 و مجموعه‌ای از ابزارهای ابری، می‌گوید.

کریشنامورتی گفت که انبارهای داده، دریاچه های داده و دریاچه های داده به بهبود ژنرال هوش مصنوعی کمک خواهند کرد، اما این یک خیابان دوطرفه نیز هست.

هوش مصنوعی مولد پیشرفت‌هایی را پرورش می‌دهد که می‌تواند فرآیند مدیریت داده‌ها را تا حد زیادی بهبود بخشد. این شامل آماده سازی داده ها، ساخت داشبوردهای BI و ایجاد است خطوط لوله ETL، او گفت.

کریشنامورتی گفت: «با هوش مصنوعی مولد، فرصت‌های منحصربه‌فردی برای مقابله با جنبه فازی مدیریت داده‌ها وجود دارد – مواردی مانند تمیز کردن داده‌ها». این همیشه یک فعالیت انسانی بود و خودکارسازی چالش برانگیز بود. حالا میتونیم درخواست بدیم [generative AI] فناوری برای به دست آوردن دقت نسبتاً بالا. شما در واقع می‌توانید از تعاملات مبتنی بر زبان طبیعی برای انجام بخش‌هایی از کارتان استفاده کنید و به طور قابل‌توجهی بهره‌ورتر شوید.»

کریشنامورتی گفت که تلاش‌های رو به رشد شرکت‌هایی را پیدا می‌کند که کار را در دریاچه‌های داده‌ای متعدد وصل کرده و بر عملیات خودکار بیشتر برای افزایش قابلیت کشف داده‌ها تمرکز کنند.

دریاچه‌های داده‌های هوش مصنوعی به مراکز داده الاستیک بیشتری منجر می‌شوند

به گفته دیپتو چاکراوارتی، مدیر ارشد محصول، کلودرا، پیشگام Hadoop که همچنان به ارائه ابزارهای جدید داده گرا ادامه می دهد.

او گفت که هوش مصنوعی قوانین موجود بازی را به چالش می کشد. این بدان معناست که ابزار دریاچه داده‌ای که می‌تواند کاهش و همچنین افزایش مقیاس داشته باشد. این به معنای پشتیبانی از محاسبات انعطاف پذیر در مراکز داده و در فضای ابری است.

«در روزهای خاصی از ماه‌های خاص، تیم‌های داده می‌خواهند چیزها را به صورت اولیه جابجا کنند. مواقع دیگر، آنها می خواهند آن را به ابر منتقل کنند. اما وقتی همه این حجم کاری داده ها را به جلو و عقب منتقل می کنید، مالیاتی وجود دارد.

در زمانی که مدیران مالی به «مالیات» هوش مصنوعی – یعنی تأثیر آن بر هزینه‌ها – توجه دارند، مرکز داده محل آزمایش خواهد بود. رهبران فناوری اطلاعات بر روی آوردن محاسبات به داده ها با مقیاس پذیری واقعاً کشسان تمرکز خواهند کرد.

“سفارشی سازی خروجی مدل بنیاد هوش مصنوعی کلیدی است”

به گفته ادوارد کالوزبرت، معاون بازاریابی محصول پلتفرم Watsonx در IBM – شرکتی که مسلماً با تلاش محاسبات شناختی Watson در اواسط دهه 2010 باعث احیای هوش مصنوعی امروزی شد، به این ترتیب زبان تجارت خود را به آن می دهید.

“شما هوش مصنوعی را با داده های خود سفارشی می کنید. این به طور موثر شرکت شما را به روشی که شما می خواهید از یک مورد استفاده و از منظر کیفیت نشان می دهد.

کالوزبرت نشان داد که داده‌های Watsonx به عنوان مخزن مرکزی داده‌ها در اکوسیستم Watsonx عمل می‌کنند. اکنون زیربنای سفارشی‌سازی مدل‌های هوش مصنوعی است که به گفته او، می‌توانند در محیط فناوری اطلاعات یک شرکت قرار گیرند.

تلاش سفارشی سازی باید با مدیریت داده برای عصر جدید هوش مصنوعی همراه باشد. او گفت: «حکومت چیزی است که مدیریت چرخه حیات و نرده‌های نظارتی را برای اطمینان از پایبندی به خط‌مشی‌های شرکت شما و همچنین هرگونه سیاست نظارتی فراهم می‌کند.»

“پردازش بیشتر در محل در حال انجام است”

به گفته جاستین بورگمن، رئیس هیئت مدیره و مدیر عامل Starburst، که کار اولیه بر روی موتور جستجوی Trino SQL را به یک پیشنهاد کامل داده lakehouse تبدیل کرده است که می تواند داده ها را از خارج از lakehouse بکشد.

او گفت که دریاچه‌ها و خانه‌های دریاچه‌ای که به خوبی مدیریت شده‌اند برای پشتیبانی از حجم کاری هوش مصنوعی، از جمله موارد مرتبط با هوش مصنوعی مولد، ضروری هستند. او گفت که ما شاهد افزایش علاقه به معماری داده های ترکیبی خواهیم بود که تا حدودی ناشی از افزایش هوش مصنوعی و یادگیری ماشین است.

این حرکت در اطراف هوش مصنوعی داده‌های بیشتری را به دنیای اولیه یا دنیای ترکیبی باز می‌گرداند. شرکت‌ها نمی‌خواهند تمام داده‌ها و مدل‌های هوش مصنوعی خود را به فضای ابری بفرستند، زیرا تحویل آن‌ها از آنجا هزینه زیادی دارد.»

بورگمن به استفاده از موتورهای پرس و جو و محاسباتی که اساساً از ذخیره‌سازی جدا شده‌اند به عنوان یک روند غالب اشاره می‌کند – روندی که در زیرساخت‌های داده‌ای متنوعی که افراد از قبل در اختیار دارند و در دریاچه‌های داده‌های متعدد کار می‌کنند. این اغلب “حرکت محاسبات به داده” نامیده می شود.

آیا داده های بیشتر همیشه بهتر است؟

حجم کاری هوش مصنوعی که بر اساس داده های مرتب نشده، ناکافی یا نامعتبر است، یک مشکل رو به رشد است. اما همانطور که تکامل دریاچه داده نشان می دهد، این یک مشکل شناخته شده است که می تواند با مدیریت داده ها برطرف شود.

مرو آدریان، تحلیلگر مستقل در IT Market Strategy، گفت: واضح است که دسترسی به حجم زیادی از داده ها اگر قابل درک نباشد مفید نیست.

«داده های بیشتر همیشه بهتر است اگر بتوانید از آن استفاده کنید. اما اگر نتوانید این کار برای شما مفید نیست.

آدریان نرم‌افزارهایی مانند Iceberg و Delta Lake را به عنوان یک لایه توصیفی در بالای داده‌های وسیع ارائه می‌کند که به شما کمک می‌کند. هوش مصنوعی و سبک های یادگیری ماشینی تجزیه و تحلیل. سازمان‌هایی که روی این نوع فناوری سرمایه‌گذاری کرده‌اند، هنگام حرکت به این دنیای جدید شجاع، مزایایی را مشاهده خواهند کرد.

اما مزایای واقعی توسعه هوش مصنوعی ناشی از این است تیم های مهارتی آدریان گفت که از تجربه استفاده از این ابزارها به دست آورید.

«دریاچه‌های داده، انبارهای داده و پایگاه داده‌های آن‌ها امکان استفاده از انواع بیشتر و حجم بیشتری از داده‌ها را برای کسب‌وکارها فراهم کردند. این برای مدل‌های هوش مصنوعی مولد، که با آموزش بر روی مجموعه داده‌های بزرگ و متنوع، بهبود می‌یابند مفید است.»

امروزه، به هر شکلی، دریاچه داده باقی می ماند. شاید موهان به بهترین وجه آن را وقتی می‌گوید: «دریاچه‌های داده از بین نرفته‌اند. زنده باد دریاچه های داده!»


Source link