جان مولر گوگل در مورد Reddit در مورد خطای به ظاهر نادرست “Noindex شناسایی شده در خطای HTTP X-Robots-Tag HTTP” که در کنسول جستجوی Google گزارش شده است برای صفحاتی که دارای آن برچسب خاص-Robots یا هر بخشنامه مرتبط با آن نیستند ، پاسخ داد. مولر دلایل احتمالی را پیشنهاد کرد ، و چندین Redditor توضیحات و راه حل های معقول ارائه دادند.
Noindex شناسایی شد
شخصی که بحث Reddit را آغاز کرد ، سناریویی را توصیف کرد که ممکن است برای بسیاری آشنا باشد. Google Search Console گزارش می دهد که نمی تواند یک صفحه را فهرست کند زیرا از فهرست بندی صفحه (که با مسدود شده از خزیدن متفاوت است) مسدود شده است. با بررسی صفحه ، هیچ حضور یک عنصر متا Noindex نشان نمی دهد و هیچ روبات وجود ندارد. Txt مسدود کردن خزیدن.
در اینجا آنچه توصیف شده به عنوان وضعیت آنها است:
- “GSC” Noindex را در هدر HTTP-Robots-Tag “برای بخش بزرگی از URL های من نشان می دهد. با این حال:
- در منبع HTML هیچ Noindex پیدا نمی شود
- No Noindex در Robots.txt
- هیچ Noindex در هدر پاسخ هنگام آزمایش قابل مشاهده است
- آزمون زنده در GSC صفحه را به عنوان ایندکس نشان می دهد
- سایت پشت CloudFlare است (ما قوانین صفحه/WAF و غیره را بررسی کرده ایم) “
آنها همچنین گزارش دادند كه آنها سعی كردند GoogleBot را جعل كنند و آدرس های مختلف IP را آزمایش كنند و از سرصفحات درخواست كنند و هنوز هیچ سرنخی برای منبع X-Robots-Tag پیدا نکردند
Cloudflare مشکوک است
یکی از Redditor در این بحث اظهار داشت که آیا مشکل از CloudFlare سرچشمه گرفته است.
آنها دستورالعمل های جامع گام به گام در مورد چگونگی تشخیص اینکه آیا CloudFlare یا هر چیز دیگری مانع از فهرست بندی Google در صفحه می شود ، ارائه دادند:
“ابتدا ، صفحه Live Test در مقابل خزنده را در GSC مقایسه کنید تا بررسی کنید که آیا Google در حال پاسخ منسوخ است یا خیر. در مرحله بعد ، قوانین تبدیل CloudFlare ، هدرهای پاسخ و کارگران را برای اصلاحات بازرسی کنید. برای بررسی پاسخ های سرور از Curl با Agent-Agent-Agent-Agent و Cache Bypass (Cache-Cantrol: No-Cache) استفاده کنید. در صورت استفاده از وردپرس ، افزونه های SEO را غیرفعال کنید تا هدرهای پویا را رد کنید. همچنین ، درخواست های GoogleBot را روی سرور وارد کنید و بررسی کنید که آیا-Robots-Tag ظاهر می شود یا خیر. در صورت عدم موفقیت ، CloudFlare را با اشاره به DNS مستقیم به سرور خود و آزمایش مجدد خود دور بزنید. “
OP (پوستر orginal ، کسی که بحث را آغاز کرد) پاسخ داد که آنها تمام این راه حل ها را آزمایش کرده اند اما قادر به آزمایش حافظه نهان سایت از طریق GSC نیستند ، فقط سایت زنده (از سرور واقعی ، نه CloudFlare).
نحوه تست با یک GoogleBot واقعی
جالب اینجاست که OP اظهار داشت که آنها قادر به آزمایش سایت خود با استفاده از GoogleBot نیستند ، اما در واقع راهی برای انجام این کار وجود دارد.
تست کننده نتایج غنی Google از نماینده کاربر GoogleBot استفاده می کند ، که از یک آدرس IP Google نیز سرچشمه می گیرد. این ابزار برای تأیید آنچه Google می بیند مفید است. اگر یک بهره برداری باعث شود سایت یک صفحه مخفی را نمایش دهد ، آزمایش کننده نتایج غنی دقیقاً آنچه را که گوگل در حال فهرست بندی است ، نشان می دهد.
صفحه پشتیبانی نتایج غنی Google تأیید می کند:
“این ابزار به صفحه به عنوان GoogleBot (یعنی استفاده از اعتبار شما ، بلکه به عنوان Google) دسترسی پیدا می کند.”
پاسخ خطا 401؟
موارد زیر احتمالاً راه حل نبوده اما کمی از دانش فنی SEO جالب توجه است.
کاربر دیگری تجربه سرور را که با پاسخ خطای 401 پاسخ می دهد ، به اشتراک گذاشت. پاسخ 401 به معنای “غیرمجاز” است و هنگامی اتفاق می افتد که درخواست یک منبع اعتبار تأیید اعتبار را از دست ندهد یا اعتبار ارائه شده موارد مناسب نیست. راه حل آنها برای ایجاد پیام های مسدود شده در کنسول جستجوی Google ، اضافه کردن یک نماد در Robots.txt برای جلوگیری از خزیدن URL های صفحه ورود به سیستم بود.
Google’s John Mueller در مورد خطای GSC
جان مولر برای ارائه کمک خود در تشخیص مسئله ، به بحث و گفتگو پرداخت. وی گفت که وی دیده است که این مسئله در رابطه با CDN (شبکه های تحویل محتوا) بوجود آمده است. نکته جالب او گفت این بود که او نیز با URL های بسیار قدیمی این اتفاق را می بیند. او در مورد آخرین مورد توضیح نداد ، اما به نظر می رسد نوعی اشکال نمایه سازی مربوط به URL های قدیمی فهرست بندی شده را نشان می دهد.
این همان چیزی است که او گفت:
“خوشحال می شوید که اگر می خواهید نمونه هایی را برای من جلب کنید ، نگاهی بیندازید. من آن را با CDN دیده ام ، من آن را با خزنده های قدیمی دیده ام (وقتی مسئله مدتها پیش در آنجا بود و یک سایت فقط URL های باستانی زیادی را فهرست بندی کرده است) ، شاید در اینجا چیز جدیدی وجود داشته باشد … “
غذای اصلی: فهرست کنسول جستجوی گوگل NOINDEX شناسایی شد
- کنسول جستجوی Google (GSC) ممکن است “NOINDEX را که در هدر HTTP-Robots-TAG شناسایی شده است” گزارش دهد ، حتی اگر این عنوان وجود نداشته باشد.
- CDN ها ، مانند CloudFlare ، ممکن است در نمایه سازی دخالت کنند. مراحل به اشتراک گذاشته شد تا بررسی شود که آیا قوانین تبدیل CloudFlare ، هدرهای پاسخ یا حافظه پنهان بر نحوه مشاهده GoogleBot در صفحه تأثیر دارد.
- داده های نمایه سازی منسوخ در سمت Google نیز ممکن است یک عامل باشد.
- تستر نتایج غنی Google می تواند آنچه را که GoogleBot می بیند تأیید کند زیرا از عامل کاربر و IP کاربر GoogleBot استفاده می کند ، و اختلافات را نشان می دهد که ممکن است از جعل یک عامل کاربر قابل مشاهده نباشد.
- 401 پاسخ غیرمجاز می تواند از نمایه سازی جلوگیری کند. یک کاربر اظهار داشت که مسئله آنها شامل صفحات ورود به سیستم است که باید از طریق Robots.txt مسدود شود.
- جان مولر CDN ها و URL های خزنده تاریخی را به دلایل احتمالی پیشنهاد کرد.