گوگل دو خزنده وب جدید را معرفی کرد

گوگل جزئیات دو خزنده جدید را فاش کرد که برای خراش دادن محتوای تصویر و ویدیو برای اهداف “تحقیق و توسعه” بهینه شده اند. اگرچه مستندات به صراحت چنین چیزی را بیان نمی کند، فرض بر این است که اگر ناشران تصمیم بگیرند خزنده های جدید را مسدود کنند، تأثیری در رتبه بندی وجود ندارد.

لازم به ذکر است که داده‌های خراش‌شده توسط این خزنده‌ها به صراحت برای داده‌های آموزشی هوش مصنوعی نیست، این همان چیزی است که خزنده Google-Extended برای آن است.

GoogleOther Crawlers

دو خزنده جدید نسخه‌هایی از خزنده GoogleOther هستند که در آوریل 2023 راه‌اندازی شد. خزنده اصلی GoogleOther نیز برای استفاده توسط تیم‌های محصول Google برای تحقیق و توسعه در مواردی که به عنوان خزیدن یک‌بار توصیف می‌شود، تعیین شده است، که شرح آن سرنخ‌هایی ارائه می‌دهد. در مورد اینکه انواع جدید GoogleOther برای چه مواردی استفاده خواهد شد.

هدف خزنده اصلی GoogleOther رسماً به شرح زیر است:

«GoogleOther خزنده عمومی است که ممکن است توسط تیم‌های مختلف محصول برای واکشی محتوای قابل دسترس عموم از سایت‌ها استفاده شود. به عنوان مثال، ممکن است برای خزیدن یکباره برای تحقیق و توسعه داخلی استفاده شود.

دو GoogleOther Variants

دو خزنده GoogleOther جدید وجود دارد:

  • GoogleOther-Image
  • GoogleOther-Video

انواع جدید برای خزیدن داده های باینری هستند، که داده هایی هستند که متن نیستند. داده های HTML به طور کلی به عنوان فایل های متنی، فایل های ASCII یا Unicode شناخته می شوند. اگر می توان آن را در یک فایل متنی مشاهده کرد، پس یک فایل متنی / ASCII / فایل یونیکد است. فایل‌های باینری فایل‌هایی هستند که نمی‌توانند در برنامه نمایش متن، فایل‌هایی مانند تصویر، صدا و ویدیو باز شوند.

انواع جدید GoogleOther برای محتوای تصویری و ویدیویی است. گوگل توکن‌های عامل کاربر را برای هر دو خزنده جدید فهرست می‌کند که می‌توانند در robots.txt برای مسدود کردن خزنده‌های جدید استفاده شوند.

1. GoogleOther-Image

توکن های عامل کاربر:

  • GoogleOther-Image
  • GoogleOther

رشته کامل عامل کاربر:

GoogleOther-Image/1.0

2. GoogleOther-Video

توکن های عامل کاربر:

  • GoogleOther-Video
  • GoogleOther

رشته کامل عامل کاربر:

GoogleOther-Video/1.0

رشته‌های GoogleOther User Agent تازه به‌روزرسانی‌شده

Google همچنین رشته های عامل کاربر GoogleOther را برای خزنده معمولی GoogleOther به روز کرد. برای اهداف مسدود کردن، می‌توانید به استفاده از همان رمز عامل کاربر مانند قبل (GoogleOther) ادامه دهید. رشته‌های عامل جدید کاربران فقط داده‌هایی هستند که برای شناسایی توضیحات کامل خزنده‌ها، به‌ویژه فناوری مورد استفاده، به سرورها ارسال می‌شوند. در این مورد، فناوری مورد استفاده Chrome است، با شماره مدل به‌طور دوره‌ای به‌روزرسانی می‌شود تا نشان دهد کدام نسخه استفاده می‌شود (WXYZ یک مکان‌نمای شماره نسخه کروم در مثال فهرست‌شده در زیر است)

فهرست کامل رشته‌های عامل کاربر GoogleOther:

  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML، مانند Gecko) Chrome/WXYZ Mobile Safari/537.36 (سازگار؛ GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML، مانند Gecko؛ سازگار؛ GoogleOther) Chrome/WXYZ Safari/537.36

خانواده دیگر ربات‌ها Google

این ربات‌های جدید ممکن است گهگاه در گزارش‌های سرور شما نشان داده شوند و این اطلاعات به شناسایی آنها به عنوان خزنده‌های واقعی Google کمک می‌کند و به ناشرانی که ممکن است بخواهند از حذف تصاویر و ویدیوهای خود برای اهداف تحقیق و توسعه خودداری کنند، کمک می‌کند.

اسناد به روز شده خزنده Google را بخوانید

GoogleOther-Image

GoogleOther-Video

تصویر ویژه توسط Shutterstock/ColorMaker