Google Search Central سری جدیدی به نام «Crawling December» را راهاندازی کرده است تا اطلاعاتی درباره نحوه خزیدن و نمایهسازی صفحات وب Googlebot ارائه دهد.
گوگل در این ماه هر هفته مقاله جدیدی منتشر خواهد کرد که جنبههای مختلف فرآیند خزیدن را که اغلب مورد بحث قرار نمیگیرد، بررسی میکند، اما میتواند تاثیر قابلتوجهی بر خزیدن وبسایت داشته باشد.
اولین پست این مجموعه اصول اولیه خزیدن را پوشش می دهد و جزئیات ضروری و در عین حال کمتر شناخته شده را در مورد نحوه مدیریت ربات Google با منابع صفحه و مدیریت بودجه خزیدن روشن می کند.
مبانی خزیدن
وبسایتهای امروزی به دلیل جاوا اسکریپت و CSS پیشرفته پیچیده هستند و خزیدن آنها را نسبت به صفحات قدیمی فقط HTML سختتر میکند. Googlebot مانند یک مرورگر وب کار می کند اما در یک زمان بندی متفاوت.
وقتی Googlebot از یک صفحه وب بازدید میکند، ابتدا HTML را از URL اصلی دانلود میکند، که ممکن است به جاوا اسکریپت، CSS، تصاویر و ویدیوها پیوند داشته باشد. سپس، سرویس رندر وب گوگل (WRS) از Googlebot برای دانلود این منابع برای ایجاد نمای نهایی صفحه استفاده می کند.
در اینجا مراحل به ترتیب آمده است:
- دانلود اولیه HTML
- پردازش توسط سرویس ارائه وب
- واکشی منابع
- ساخت صفحه نهایی
مدیریت بودجه خزیدن
خزیدن منابع اضافی می تواند بودجه خزیدن وب سایت اصلی را کاهش دهد. برای کمک به این امر، گوگل می گوید که “WRS سعی می کند هر منبع (جاوا اسکریپت و CSS) مورد استفاده در صفحاتی که ارائه می دهد را در حافظه پنهان کند.”
مهم است که توجه داشته باشید که حافظه پنهان WRS تا 30 روز دوام می آورد و تحت تأثیر قوانین ذخیره سازی HTTP تنظیم شده توسط توسعه دهندگان قرار نمی گیرد.
این استراتژی کش به صرفه جویی در بودجه خزیدن سایت کمک می کند.
توصیه ها
این پست به صاحبان سایت نکاتی درباره نحوه بهینه سازی بودجه خزیدن خود می دهد:
- کاهش استفاده از منابع: از منابع کمتری برای ایجاد یک تجربه کاربری خوب استفاده کنید. این به صرفه جویی در بودجه خزیدن هنگام رندر صفحه کمک می کند.
- منابع میزبان به طور جداگانه: منابع را روی نام میزبان دیگری مانند CDN یا زیر دامنه قرار دهید. این می تواند به کاهش بار بودجه خزیدن از سایت اصلی شما کمک کند.
- از پارامترهای Cache-Busting هوشمندانه استفاده کنید: مراقب پارامترهای cache-busting باشید. تغییر نشانیهای اینترنتی منابع میتواند باعث شود Google آنها را دوباره بررسی کند، حتی اگر محتوا یکسان باشد. این می تواند بودجه خزیدن شما را هدر دهد.
همچنین، گوگل هشدار می دهد که مسدود کردن خزیدن منابع با robots.txt می تواند خطرناک باشد.
اگر گوگل نتواند به منبع لازم برای رندر دسترسی پیدا کند، ممکن است در دریافت محتوای صفحه و رتبه بندی مناسب آن مشکل داشته باشد.
ابزارهای نظارت
تیم جستجوی مرکزی میگوید بهترین راه برای دیدن منابعی که Googlebot در حال خزیدن است، بررسی گزارشهای دسترسی خام سایت است.
میتوانید Googlebot را با آدرس IP آن با استفاده از محدودههای منتشر شده در اسناد توسعهدهنده Google شناسایی کنید.
چرا این مهم است
این پست سه نکته کلیدی را که بر نحوه یافتن و پردازش محتوای سایت شما توسط گوگل تأثیر میگذارند، روشن میکند:
- مدیریت منابع مستقیماً بر بودجه خزیدن شما تأثیر می گذارد، بنابراین میزبانی اسکریپت ها و سبک ها در CDN ها می تواند به حفظ آن کمک کند.
- Google منابع را به مدت 30 روز بدون توجه به تنظیمات حافظه پنهان HTTP شما ذخیره می کند، که به حفظ بودجه خزیدن شما کمک می کند.
- مسدود کردن منابع مهم در robots.txt می تواند با جلوگیری از نمایش صحیح صفحات شما توسط گوگل نتیجه معکوس داشته باشد.
درک این مکانیک ها به سئوکاران و توسعه دهندگان کمک می کند تا تصمیمات بهتری در مورد میزبانی منابع و دسترسی داشته باشند – انتخاب هایی که مستقیماً بر میزان خوب خزیدن و فهرست بندی سایت های گوگل تأثیر می گذارد.
تصویر ویژه: ArtemisDiana/Shutterstock