مجموعه داده ها در جستجوی Google در دسترس شماست – وبلاگ هوش مصنوعی گوگل

دسترسی به مجموعه داده‌ها برای بسیاری از تلاش‌های امروزی در بخش‌های عمودی و صنایع، اعم از تحقیقات علمی، تجزیه و تحلیل تجاری یا سیاست‌های عمومی، حیاتی است. در جامعه علمی و در سطوح مختلف بخش عمومی، تکرارپذیری و شفافیت برای پیشرفت ضروری است، بنابراین اشتراک گذاری داده ها حیاتی است. به عنوان مثال، در ایالات متحده یک سیاست جدید اخیر مستلزم دسترسی آزاد و عادلانه به نتایج تمام تحقیقات با بودجه فدرال، از جمله داده ها و اطلاعات آماری همراه با انتشارات است.

برای تسهیل کشف محتوا با این سطح از جزئیات آماری و استخراج بهتر این اطلاعات از سراسر وب، Google اکنون جستجوی مجموعه‌های داده را آسان‌تر می‌کند. می‌توانید روی هر یک از سه نتیجه برتر کلیک کنید (به زیر مراجعه کنید) تا به صفحه مجموعه داده‌ها برسید یا می‌توانید با کلیک کردن روی «مجموعه‌های داده بیشتر» بیشتر کاوش کنید. به عنوان مثال:

وقتی کاربران در جستجوی Google مجموعه داده‌ها را جستجو می‌کنند، یک بخش اختصاصی پیدا می‌کنند که صفحاتی با توضیحات مجموعه داده را برجسته می‌کند. آن‌ها می‌توانند با کلیک بر روی «مجموعه‌های داده بیشتر» و رفتن به جستجوی مجموعه داده‌های بسیار بیشتری را کاوش کنند.

پشتیبانی شده توسط Dataset Search

Dataset Search، یک موتور جستجوی اختصاصی برای مجموعه داده ها، این ویژگی را تقویت می کند و بیش از 45 میلیون مجموعه داده از بیش از 13000 وب سایت را فهرست می کند. مجموعه داده ها بسیاری از رشته ها و موضوعات، از جمله مجموعه داده های دولتی، علمی و تجاری را پوشش می دهند. جستجوی مجموعه داده‌ها، ابرداده‌های ضروری درباره مجموعه داده‌ها و پیش‌نمایش داده‌ها را در صورت وجود به کاربران نشان می‌دهد. سپس کاربران می توانند پیوندهای مربوط به مخازن داده ای را که مجموعه داده ها را میزبانی می کنند دنبال کنند.

جستجوی مجموعه داده در درجه اول صفحات مجموعه داده در وب را که حاوی داده های ساختار یافته schema.org هستند فهرست می کند. ابرداده schema.org به نویسندگان صفحه وب اجازه می دهد تا معنای صفحه را توصیف کنند: موجودیت های موجود در صفحات و ویژگی های آنها. برای صفحات مجموعه داده، ابرداده schema.org عناصر کلیدی مجموعه داده‌ها را توصیف می‌کند، مانند توضیحات، مجوز، پوشش زمانی و مکانی، و قالب‌های دانلود موجود. Dataset Search علاوه بر تجمیع این ابرداده و دسترسی آسان به آن، متادیتاهایی را که مستقیماً از صفحات وب می‌آیند، عادی و مطابقت می‌دهد.

اگر نویسنده یا ارائه‌دهنده مجموعه داده‌ها هستید و می‌خواهید دیگران مجموعه داده‌های شما را در «جستجو» بیابند، مطمئن شوید که مجموعه داده‌هایتان را به‌گونه‌ای منتشر می‌کنید که قابل کشف باشد و مشخص کنید دیگران چگونه می‌توانند از داده‌ها استفاده مجدد کنند. به طور خاص، اطمینان حاصل کنید که صفحه وب که مجموعه داده را توصیف می کند دارای ابرداده قابل خواندن توسط ماشین باشد. ساده‌ترین راه برای اطمینان از این موضوع، انتشار مجموعه داده‌های خود در یک مخزن مجموعه داده‌های مستقر است. برخی از مخازن به جوامع تحقیقاتی خاصی پاسخ می دهند، در حالی که برخی دیگر «عمومی» هستند (figshare.com، zenodo.org، datadryad.org، kaggle.com، و غیره). این مخازن به طور خودکار متادیتا را در صفحات مجموعه داده برای هر مجموعه داده قرار می دهند، که این امر باعث می شود موتورهای جستجو به راحتی آن ها را کشف کرده و در بخش های نتایج تخصصی قرار دهند، مانند شکل بالا.

با ادامه رشد و تکامل اشتراک گذاری داده ها، ما همچنان به آسانی یافتن، دسترسی و استفاده از مجموعه داده ها را مانند هر نوع دیگر اطلاعات در وب می کنیم.

قدردانی ها

ما از بسیاری از کارمندان Google که در توسعه و راه‌اندازی این ویژگی مشارکت داشتند، بسیار سپاسگزاریم، از جمله: راشل زاکس، دامیان بیولو، شییو چن، جاناتان دریک، سونیل وموری، استفان تسو، آمیت باپات، ویل لسچوک، مارک نایورک، سرگئی واسیلویتسکی، برونو پوساس و کورینا کورتس.

سئو PBN | خبر های جدید سئو و هک و سرور