Google Crawler Documentation فهرست IP جدیدی دارد

گوگل اسناد Googlebot و خزنده خود را به روز کرد تا طیف وسیعی از IP ها را برای ربات های فعال شده توسط کاربران محصولات Google اضافه کند. نام فیدها تغییر کرده است که برای ناشرانی که آدرس‌های IP کنترل‌شده Google را در لیست سفید قرار می‌دهند مهم است. این تغییر برای ناشرانی که می‌خواهند اسکراپرهایی را که از ابر Google استفاده می‌کنند و سایر خزنده‌هایی که مستقیماً با خود Google مرتبط نیستند را مسدود کنند مفید خواهد بود.

لیست جدید آدرس های IP

گوگل می‌گوید که این فهرست شامل محدوده‌های IP است که مدت‌هاست مورد استفاده قرار گرفته‌اند، بنابراین محدوده‌های آدرس IP جدیدی نیستند.

دو نوع محدوده آدرس IP وجود دارد:

  1. محدوده‌های IP که توسط کاربران آغاز می‌شوند اما توسط Google کنترل می‌شوند و به نام میزبان Google.com حل می‌شوند.
    اینها ابزارهایی مانند Google Site Verifier و احتمالاً Rich Results Tester Tool هستند.
  2. محدوده‌های IP که توسط کاربران شروع می‌شوند اما توسط Google کنترل نمی‌شوند و به نام میزبان gae.googleusercontent.com حل می‌شوند.
    اینها برنامه‌هایی هستند که در Google cloud یا اسکریپت‌های برنامه‌هایی هستند که از کاربرگ‌نگار Google فراخوانی می‌شوند.

لیست هایی که با هر دسته بندی مطابقت دارند اکنون متفاوت هستند.

قبلاً لیستی که با آدرس های IP Google مطابقت داشت این بود: special-crawlers.json (در حال حل شدن به gae.googleusercontent.com)

اکنون فهرست «خزنده‌های ویژه» مربوط به خزنده‌هایی است که توسط Google کنترل نمی‌شوند.

«IPهای موجود در شی user-triggered-fetchers.json به نام میزبان gae.googleusercontent.com حل می شود. برای مثال، اگر سایتی که در Google Cloud (GCP) اجرا می‌شود، ویژگی‌ای داشته باشد که به درخواست کاربر آن سایت نیاز به واکشی فیدهای RSS خارجی دارد، از این IP استفاده می‌شود.»

لیست جدیدی که مربوط به خزنده های کنترل شده گوگل است عبارتند از:

user-triggered-fetchers-google.json

«ابزارها و عملکردهای محصول که در آن کاربر نهایی واکشی را راه‌اندازی می‌کند. به عنوان مثال، Google Site Verifier به درخواست یک کاربر عمل می کند. از آنجا که واکشی توسط یک کاربر درخواست شده است، این واکشی‌کننده‌ها قوانین robots.txt را نادیده می‌گیرند.

واکشی‌های کنترل‌شده توسط Google از IP‌های موجود در شیء user-triggered-fetchers-google.json سرچشمه می‌گیرند و به نام میزبان google.com حل می‌شوند.

فهرست IPهای Google Cloud و خزنده‌های App که Google آنها را کنترل نمی‌کند را می‌توانید در اینجا پیدا کنید:

https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers.json

لیست IP های گوگل که توسط کاربران راه اندازی شده و توسط گوگل کنترل می شوند در اینجا آمده است:

https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers-google.json

بخش جدید محتوا

بخش جدیدی از محتوا وجود دارد که توضیح می دهد لیست جدید در مورد چیست.

«فچرهایی که توسط Google کنترل می‌شوند، از IP‌های موجود در شیء user-triggered-fetchers-google.json سرچشمه می‌گیرند و به نام میزبان google.com حل می‌شوند. IPهای موجود در شی user-triggered-fetchers.json به نام میزبان gae.googleusercontent.com حل می شود. برای مثال، اگر سایتی که در Google Cloud (GCP) اجرا می‌شود، ویژگی‌ای داشته باشد که به درخواست کاربر آن سایت نیاز به واکشی فیدهای RSS خارجی دارد، از این IPها استفاده می‌شود. ***-***-***-***.gae.googleusercontent.com یا google-proxy-***-***-***-***.google.com user-triggered-fetchers .json و user-triggered-fetchers-google.json”

Google Changelog

تغییرات گوگل تغییرات را اینگونه توضیح می دهد:

«صادر کردن طیف دیگری از آدرس‌های IP واکشی Google
چه: اضافه کردن یک لیست اضافی از آدرس‌های IP برای واکشی‌هایی که توسط محصولات Google کنترل می‌شوند، به‌عنوان مثال، برخلاف برنامه‌های اسکریپت کنترل‌شده توسط کاربر. لیست جدید، user-triggered-fetchers-google.json، شامل محدوده های IP است که برای مدت طولانی مورد استفاده قرار گرفته اند.

چرا: از نظر فنی امکان صادرات محدوده ها وجود داشت.

اسناد به روز شده را بخوانید:
تأیید Googlebot و سایر خزنده‌های Google

اسناد قدیمی را بخوانید:
Archive.org – تأیید Googlebot و سایر خزنده‌های Google

تصویر ویژه توسط Shutterstock/JHVEPhoto