گوگل به یک سوال مربوط به بودجه Crawl پاسخ می دهد

شخصی در Reddit سؤالی در مورد مشکل «بودجه خزیدن» خود پست کرد و پرسید که آیا تعداد زیادی از 301 تغییر مسیر به 410 پاسخ خطا باعث می‌شود Googlebot بودجه خزیدن خود را تمام کند یا خیر. جان مولر از گوگل دلیلی برای توضیح اینکه چرا Redditor ممکن است الگوی خزیدن ضعیفی را تجربه کند ارائه کرد و نکته ای را در مورد بودجه خزیدن به طور کلی روشن کرد.

خزیدن بودجه

این یک ایده عمومی پذیرفته شده است که گوگل بودجه خزیدنی دارد، ایده ای که سئوکاران برای توضیح اینکه چرا برخی از سایت ها به اندازه کافی خزیده نمی شوند، ابداع کردند. ایده این است که به هر سایت تعداد مشخصی از خزیدن اختصاص داده می شود، که محدودیتی برای میزان خزیدن یک سایت برای آن تعیین می شود.

درک پیشینه ایده بودجه خزیدن بسیار مهم است زیرا به درک اینکه واقعا چیست کمک می کند. گوگل مدت‌ها اصرار داشت که هیچ چیز در گوگل وجود ندارد که بتوان آن را بودجه خزیدن نامید، اگرچه نحوه خزیدن گوگل در یک سایت می‌تواند این تصور را ایجاد کند که در خزیدن محدودیتی وجود دارد.

یک مهندس برتر گوگل (در آن زمان) به نام مت کاتس در مصاحبه ای در سال 2010 به این واقعیت در مورد بودجه خزیدن اشاره کرد.

مت به سوالی در مورد بودجه خزنده گوگل پاسخ داد و ابتدا توضیح داد که هیچ بودجه خزیدنی به شکلی که SEO ها از آن تصور می کنند وجود ندارد:

اولین چیز این است که واقعاً چیزی به عنوان سقف نمایه سازی وجود ندارد. بسیاری از مردم فکر می کردند که یک دامنه فقط تعداد معینی از صفحات را نمایه می کند، و واقعاً این روش کار نمی کند.

همچنین محدودیت سختی برای خزیدن ما وجود ندارد.”

در سال 2017، گوگل توضیح دهنده بودجه خزیدن را منتشر کرد که بسیاری از حقایق مربوط به خزیدن را گردآوری کرد که در مجموع شبیه به آنچه جامعه سئو آن را بودجه خزیدن می نامید، گردآوری کرد. این توضیح جدید دقیق‌تر از عبارت مبهم «بودجه خزیدن» است (سند بودجه خزیدن گوگل در اینجا توسط ژورنال موتور جستجو خلاصه شده است).

لیست کوتاهی از نکات اصلی در مورد بودجه خزیدن عبارتند از:

  • نرخ خزیدن تعداد URL هایی است که گوگل می تواند بر اساس توانایی سرور برای ارائه URL های درخواستی بخزد.
  • به عنوان مثال، یک سرور اشتراکی می تواند ده ها هزار وب سایت را میزبانی کند که در نتیجه صدها هزار یا میلیون ها URL ایجاد می شود. بنابراین گوگل باید سرورها را بر اساس توانایی انطباق با درخواست‌های صفحات بخزد.
  • صفحاتی که اساسا تکراری از سایرین هستند (مانند پیمایش وجهی) و سایر صفحات کم ارزش می توانند منابع سرور را هدر دهند و تعداد صفحاتی را که یک سرور می تواند برای خزیدن به Googlebot بدهد محدود می کند.
  • صفحاتی که سبک وزن هستند، راحت تر خزیدن در آنها آسان تر است.
  • صفحات نرم 404 می توانند باعث شوند که گوگل به جای صفحات مهم، روی آن صفحات کم ارزش تمرکز کند.
  • الگوهای پیوند داخلی و ورودی می توانند به خزیدن صفحات کمک کنند.

سوال Reddit درباره نرخ خزیدن

شخص در Reddit می خواست بداند آیا صفحات کم ارزشی که ایجاد می کنند بر بودجه خزیدن گوگل تأثیر می گذارد یا خیر. به طور خلاصه، یک درخواست برای URL غیر ایمن صفحه‌ای که دیگر وجود ندارد، به نسخه امن صفحه وب گمشده هدایت می‌شود که پاسخ خطای 410 را ارائه می‌دهد (به این معنی است که صفحه برای همیشه از بین رفته است).

این یک سوال مشروع است.

این همان چیزی است که آنها پرسیدند:

من سعی می‌کنم Googlebot را فراموش کند که برخی از URLهای غیر HTTPS بسیار قدیمی را که پس از 6 سال هنوز در حال خزیدن هستند، بخزد. و من یک پاسخ 410 را در سمت HTTPS در چنین URL های بسیار قدیمی قرار دادم.

بنابراین Googlebot در حال یافتن یک تغییر مسیر 301 (از HTTP به HTTPS) و سپس یک 410 است.

http://example.com/old-url.php?id=xxxx -301-> https://example.com/old-url.php?id=xxxx (410 پاسخ)

دو سوال آیا G**** از این 301+410 راضی است؟

من از مسائل مربوط به «بودجه خزیدن» رنج می‌برم و نمی‌دانم آیا این دو پاسخ Googlebot را خسته می‌کند یا خیر

آیا 410 موثر است؟ منظورم این است که آیا باید 410 را مستقیماً بدون 301 اول برگردانم؟

جان مولر از گوگل پاسخ داد:

جی*؟

301 خوب است، مخلوط 301/410 خوب است.

بودجه خزیدن واقعاً فقط یک مشکل برای سایت‌های عظیم است (https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget). اگر در آنجا مشکلاتی می بینید و سایت شما واقعاً گسترده نیست، احتمالاً گوگل ارزش زیادی در خزیدن بیشتر نمی بیند. این یک مسئله فنی نیست.»

دلایل عدم خزیدن به اندازه کافی

مولر پاسخ داد که “احتمالا” گوگل ارزشی در خزیدن صفحات وب بیشتر نمی بیند. این بدان معنی است که صفحات وب احتمالاً می توانند از یک بررسی برای شناسایی اینکه چرا ممکن است گوگل تشخیص دهد که آن صفحات ارزش خزیدن ندارند، استفاده کنند.

برخی از تاکتیک‌های محبوب SEO تمایل دارند صفحات وب کم ارزشی را ایجاد کنند که اصالت ندارند. به عنوان مثال، یک روش محبوب سئو این است که صفحات وب با رتبه بندی برتر را بررسی کنید تا بفهمید چه عواملی در آن صفحات دلیل رتبه بندی آن صفحات را توضیح می دهند، سپس از آن اطلاعات برای بهبود صفحات خود با تکرار آنچه در نتایج جستجو کار می کند استفاده کنید.

منطقی به نظر می رسد اما چیزی با ارزش ایجاد نمی کند. اگر آن را به عنوان یک انتخاب باینری One و Zero در نظر بگیرید، جایی که صفر همان چیزی است که قبلاً در نتایج جستجو وجود دارد و One نشان دهنده چیزی اصلی و متفاوت است، تاکتیک محبوب SEO برای تقلید از آنچه قبلاً در نتایج جستجو وجود دارد، محکوم به ایجاد یک Zero دیگر است. وب سایتی که چیزی بیشتر از آنچه قبلاً در SERP ها وجود دارد ارائه نمی دهد.

واضح است که مسائل فنی وجود دارد که می تواند بر میزان خزیدن تأثیر بگذارد، مانند سلامت سرور و عوامل دیگر.

اما از نظر آنچه به عنوان بودجه خزیدن درک می شود، این چیزی است که گوگل مدت هاست آن را حفظ کرده است، برای سایت های بزرگ و نه برای وب سایت های کوچکتر تا متوسط.

بحث Reddit را بخوانید:

آیا G**** از 301+410 پاسخ برای همان URL خوشحال است؟

تصویر ویژه توسط Shutterstock/ViDI Studio