به عنوان بخشی از موضوع خوشه بندی و متعارف سازی با جستجوی گوگل امروز، آلن اسکات از گوگل آنچه را که “سیاهچاله های غارتگر” در جستجوی گوگل می نامد توضیح داد. جایی که خوشهبندی گوگل در برخی از صفحات خطا قرار میگیرد و در نهایت به این سیاهچاله در جستجوی Google ختم میشود.
این در مصاحبه عالی Search Off The Record از آلن اسکات از تیم جستجوی Google، که به طور خاص روی تکرار در جستجوی Google کار می کند، به دست آمد. مارتین اسپلیت و جان مولر از گوگل با آلن مصاحبه کردند.
آلن توضیح داد که این “سیاهچاله های غارتگرانه” به این دلیل اتفاق می افتد که “صفحات خطا و خوشه بندی رابطه ناخوشایندی دارند” در برخی موارد. آلن گفت: “صفحات خطا و خوشه بندی رابطه ناخوشایندی دارند که در آن صفحات خطای کشف نشده مانند هر صفحه دیگر یک جمع بندی بررسی می کنند، و سپس بر اساس جمع بندی جمع می شوند، و بنابراین صفحات خطا تمایل به خوشه بندی با یکدیگر دارند. در این مرحله منطقی است. درسته؟”
مارتین اسپلیت از گوگل آن را با یک مثال خلاصه کرد: «آیا این مواردی که شما مانند یک وبسایت دارید که، نمیدانم، مانند 20 محصولی که دیگر در دسترس نیستند و آنها دوست دارند آن را با این مورد جایگزین کنند، وجود ندارد. این صفحه به نوعی یک صفحه خطا است، اما به عنوان یک صفحه خطا عمل نمی کند، زیرا به عنوان یک HTTP 200 عمل می کند. و بعد اتفاقات عجیبی می افتد، درست است؟
فکر میکنم این بدان معناست که گوگل فکر میکند آن صفحات خطا همه یکسان هستند، زیرا چکسامها همه یکسان هستند.
چک سام چیست؟ چکسوم یک بلوک کوچک از دادهها است که از بلوک دیگری از دادههای دیجیتال بهمنظور تشخیص خطاهایی که ممکن است در حین انتقال یا ذخیرهسازی آن ایجاد شده باشد، به دست میآید. به خودی خود، جمعهای کنترلی اغلب برای تأیید صحت دادهها استفاده میشوند، اما برای تأیید صحت دادهها به آنها اعتماد نمیشود.
برگشت به آلن، او به مارتین پاسخ داد و گفت: “پس این یک مثال خوب است. بله، این دقیقاً همان چیزی است که من در مورد آن صحبت می کنم. اکنون، در این صورت، مدیر وب سایت ممکن است خیلی نگران نباشد، زیرا این محصولات، اگر آنها” برای همیشه از بین رفته اند، پس آنها می خواهند آنها بروند، بنابراین مشکل بزرگی نیست، اما اگر موقتاً از بین رفته باشند، این یک مشکل است زیرا اکنون همه آنها در این خوشه قرار گرفته اند. آنها احتمالاً برنمی گردند، زیرا کرال واقعاً از کارهای تکراری خوشش نمی آید. فراموشش کن من دیگر نیازی به خزیدن آن ندارم.” به همین دلیل است که این یک سیاهچاله است.”
به داخل این سیاهچاله می رود که ممکن است گوگل دیگر هرگز به آن صفحه نگاه نکند. خوب، شاید نه برای همیشه.
آلن گفت: “فقط چیزهایی که بسیار به سمت بالای خوشه هستند احتمالاً به بیرون برمی گردند.”
پس چرا آلن در این مورد صحبت می کند؟ او گفت، «جایی که این موضوع واقعاً من را نگران میکند، سایتهایی با خطاهای گذرا هستند، مانند آنچه که شما در آنجا توضیح میدهید، نوعی خطای گذرا عمدی است». او گفت: “خب، از هر هزار بار، یک مورد خطای خود را به ما نشان میدهید. اکنون شما یک سیاهچاله غارتگرانه از صفحات مرده دارید. بدتر میشود، زیرا شما همچنین به یک سری وابستگی به جاوا اسکریپت سرویس میدهید.” اضافه شده است.
در اینجا بیشتر به همراه آلن و مارتین در این مورد آمده است:
آلن:
اگر آنها نتوانند واکشی شوند، ممکن است رندر شما را خراب کنند، در این صورت ما به صفحه شما نگاه میکنیم و فکر میکنیم خراب است. قابلیت اطمینان واقعی صفحه شما، پس از گذراندن آن مراحل، لزوماً زیاد نیست. ما باید نگران این باشیم که این گونه خوشههای سیاهچاله غارتگر را از تصرف یک سایت در بیاوریم، زیرا چیزها در آنها ریخته میشوند، مانند سایتهای رسانههای اجتماعی که من به برجستهترین پروفایلها نگاه میکنم، و آنها فقط دستهای از صفحات را در زیر خود خواهند داشت، برخی از آنها خود دارای مشخصات نسبتاً بالایی هستند که به آن خوشه تعلق ندارند.
مارتین:
اوه پسر باشه آره زمانی که شخصی A/B نسخه جدیدی از وبسایت خود را آزمایش میکرد، چنین چیزی را دیدهام، و سپس برخی از پیوندها با پیامهای خطا شکسته میشدند، زیرا API تغییر کرده بود و تماسها دیگر کار نمیکرد یا چیزی شبیه به آن. و سپس، در 10٪ موارد، تقریباً برای تمام محتوای آنها یک پیام خطا دریافت خواهید کرد. بله، به نظرم برگشتن از آن مشکل بود.
جان مولر مواردی را مطرح کرد که این می تواند مشکلی در CDN ها باشد:
من همچنین چیزی را دیده ام که فکر می کنم شبیه به این است که در آن، اگر سایتی در جلوی خود نوعی CDN داشته باشد که در آن CDN نوعی شناسایی ربات یا تشخیص DDoS را انجام می دهد و سپس چیزی شبیه به “اوه، آن” را ارائه می دهد. به نظر می رسد که شما یک ربات هستید، و Googlebot این است: “بله، من یک ربات هستم.” اما پس از آن همه آن صفحات، حدس میزنم، در نهایت با هم و احتمالاً در چندین سایت جمع میشوند، درست است؟
آلن تایید کرد و گفت گری ایلیز از گوگل اینجا و آنجا روی این موضوع کار کرده است:
بله، اساسا. گری در واقع برای ما در مورد این موضوع اطلاع رسانی کرده است. میدانید، ما با نمونههایی از این دست مواجه میشویم، و تلاش میکنیم که ارائهدهندگان این نوع خدمات را با ما همکاری کنند، یا حداقل با گری کار کنند. نمی دانم با آنها چه می کند. او مسئول آن است. اما همه آنها به اندازه ای همکاری نمی کنند. بنابراین این چیزی است که باید از آن آگاه بود.
بنابراین چگونه میتوانید از این سیاهچالههای گوگل دور بمانید؟ آلن گفت: “ساده ترین راه ارائه کدهای HTTP صحیح است، بنابراین، می دانید، یک 404 یا 403 یا 503 برای ما بفرستید. اگر این کار را انجام دهید، دسته بندی نمی کنید. ما فقط می توانیم صفحاتی را خوشه بندی کنیم. 200. فقط 200 ها به سیاهچاله ها می روند.”
گزینه دیگری که آلن گفت این بود:
گزینه دیگر در اینجا این است که اگر جاوا اسکریپت را انجام می دهید، در این صورت ممکن است نتوانید کد HTTP را برای ما ارسال کنید. شاید برای آن کمی دیر باشد کاری که می توانید در آنجا انجام دهید این است که می توانید سعی کنید یک پیام خطای واقعی را سرویس دهید، چیزی که به وضوح یک خطا است مانند، می دانید، می توانید به معنای واقعی کلمه بگویید، می دانید، 503 – ما با یک خطای سرور یا 403 مواجه شدیم – شما نبودید. مجاز به مشاهده این یا 404 – ما نتوانستیم فایل صحیح را پیدا کنیم. هر یک از آن چیزها کار می کند. می دانید، شما حتی نیازی به استفاده از کد HTTP ندارید. بدیهی است که شما فقط می توانید چیزی بگویید. خب، ما سیستمی داریم که قرار است صفحات خطا را شناسایی کند، و میخواهیم فراخوانی آن را فراتر از آنچه در حال حاضر انجام میدهد بهبود دهیم تا سعی کنیم برخی از این رندرهای بد و این صفحاتی که توسط رباتها تایپ میشوند را برطرف کنیم. اما، در این میان، به طور کلی امنترین کار این است که همه چیز را در دست خود بگیرید و سعی کنید مطمئن شوید که گوگل قصد شما را تا حد امکان درک میکند.
آنها به این موضوع ادامه می دهند و همه چیز در حدود ساعت 16:22 دقیقه شروع می شود – در اینجا ویدیوی جاسازی شده است:
بحث انجمن در X.