جستجوی گوگل غارت سیاهچاله ها با خوشه ها و صفحات خطا

جستجوی گوگل غارت سیاهچاله ها با خوشه ها و صفحات خطا

به عنوان بخشی از موضوع خوشه بندی و متعارف سازی با جستجوی گوگل امروز، آلن اسکات از گوگل آنچه را که “سیاهچاله های غارتگر” در جستجوی گوگل می نامد توضیح داد. جایی که خوشه‌بندی گوگل در برخی از صفحات خطا قرار می‌گیرد و در نهایت به این سیاه‌چاله در جستجوی Google ختم می‌شود.

این در مصاحبه عالی Search Off The Record از آلن اسکات از تیم جستجوی Google، که به طور خاص روی تکرار در جستجوی Google کار می کند، به دست آمد. مارتین اسپلیت و جان مولر از گوگل با آلن مصاحبه کردند.

آلن توضیح داد که این “سیاهچاله های غارتگرانه” به این دلیل اتفاق می افتد که “صفحات خطا و خوشه بندی رابطه ناخوشایندی دارند” در برخی موارد. آلن گفت: “صفحات خطا و خوشه بندی رابطه ناخوشایندی دارند که در آن صفحات خطای کشف نشده مانند هر صفحه دیگر یک جمع بندی بررسی می کنند، و سپس بر اساس جمع بندی جمع می شوند، و بنابراین صفحات خطا تمایل به خوشه بندی با یکدیگر دارند. در این مرحله منطقی است. درسته؟”

مارتین اسپلیت از گوگل آن را با یک مثال خلاصه کرد: «آیا این مواردی که شما مانند یک وب‌سایت دارید که، نمی‌دانم، مانند 20 محصولی که دیگر در دسترس نیستند و آن‌ها دوست دارند آن را با این مورد جایگزین کنند، وجود ندارد. این صفحه به نوعی یک صفحه خطا است، اما به عنوان یک صفحه خطا عمل نمی کند، زیرا به عنوان یک HTTP 200 عمل می کند. و بعد اتفاقات عجیبی می افتد، درست است؟

فکر می‌کنم این بدان معناست که گوگل فکر می‌کند آن صفحات خطا همه یکسان هستند، زیرا چک‌سام‌ها همه یکسان هستند.

چک سام چیست؟ چک‌سوم یک بلوک کوچک از داده‌ها است که از بلوک دیگری از داده‌های دیجیتال به‌منظور تشخیص خطاهایی که ممکن است در حین انتقال یا ذخیره‌سازی آن ایجاد شده باشد، به دست می‌آید. به خودی خود، جمع‌های کنترلی اغلب برای تأیید صحت داده‌ها استفاده می‌شوند، اما برای تأیید صحت داده‌ها به آنها اعتماد نمی‌شود.

برگشت به آلن، او به مارتین پاسخ داد و گفت: “پس این یک مثال خوب است. بله، این دقیقاً همان چیزی است که من در مورد آن صحبت می کنم. اکنون، در این صورت، مدیر وب سایت ممکن است خیلی نگران نباشد، زیرا این محصولات، اگر آنها” برای همیشه از بین رفته اند، پس آنها می خواهند آنها بروند، بنابراین مشکل بزرگی نیست، اما اگر موقتاً از بین رفته باشند، این یک مشکل است زیرا اکنون همه آنها در این خوشه قرار گرفته اند. آنها احتمالاً برنمی گردند، زیرا کرال واقعاً از کارهای تکراری خوشش نمی آید. فراموشش کن من دیگر نیازی به خزیدن آن ندارم.” به همین دلیل است که این یک سیاهچاله است.”

به داخل این سیاهچاله می رود که ممکن است گوگل دیگر هرگز به آن صفحه نگاه نکند. خوب، شاید نه برای همیشه.

آلن گفت: “فقط چیزهایی که بسیار به سمت بالای خوشه هستند احتمالاً به بیرون برمی گردند.”

پس چرا آلن در این مورد صحبت می کند؟ او گفت، «جایی که این موضوع واقعاً من را نگران می‌کند، سایت‌هایی با خطاهای گذرا هستند، مانند آنچه که شما در آنجا توضیح می‌دهید، نوعی خطای گذرا عمدی است». او گفت: “خب، از هر هزار بار، یک مورد خطای خود را به ما نشان می‌دهید. اکنون شما یک سیاهچاله غارتگرانه از صفحات مرده دارید. بدتر می‌شود، زیرا شما همچنین به یک سری وابستگی به جاوا اسکریپت سرویس می‌دهید.” اضافه شده است.

در اینجا بیشتر به همراه آلن و مارتین در این مورد آمده است:

آلن:

اگر آن‌ها نتوانند واکشی شوند، ممکن است رندر شما را خراب کنند، در این صورت ما به صفحه شما نگاه می‌کنیم و فکر می‌کنیم خراب است. قابلیت اطمینان واقعی صفحه شما، پس از گذراندن آن مراحل، لزوماً زیاد نیست. ما باید نگران این باشیم که این گونه خوشه‌های سیاهچاله غارتگر را از تصرف یک سایت در بیاوریم، زیرا چیزها در آنها ریخته می‌شوند، مانند سایت‌های رسانه‌های اجتماعی که من به برجسته‌ترین پروفایل‌ها نگاه می‌کنم، و آنها فقط دسته‌ای از صفحات را در زیر خود خواهند داشت، برخی از آنها خود دارای مشخصات نسبتاً بالایی هستند که به آن خوشه تعلق ندارند.

مارتین:

اوه پسر باشه آره زمانی که شخصی A/B نسخه جدیدی از وب‌سایت خود را آزمایش می‌کرد، چنین چیزی را دیده‌ام، و سپس برخی از پیوندها با پیام‌های خطا شکسته می‌شدند، زیرا API تغییر کرده بود و تماس‌ها دیگر کار نمی‌کرد یا چیزی شبیه به آن. و سپس، در 10٪ موارد، تقریباً برای تمام محتوای آنها یک پیام خطا دریافت خواهید کرد. بله، به نظرم برگشتن از آن مشکل بود.

جان مولر مواردی را مطرح کرد که این می تواند مشکلی در CDN ها باشد:

من همچنین چیزی را دیده ام که فکر می کنم شبیه به این است که در آن، اگر سایتی در جلوی خود نوعی CDN داشته باشد که در آن CDN نوعی شناسایی ربات یا تشخیص DDoS را انجام می دهد و سپس چیزی شبیه به “اوه، آن” را ارائه می دهد. به نظر می رسد که شما یک ربات هستید، و Googlebot این است: “بله، من یک ربات هستم.” اما پس از آن همه آن صفحات، حدس می‌زنم، در نهایت با هم و احتمالاً در چندین سایت جمع می‌شوند، درست است؟

آلن تایید کرد و گفت گری ایلیز از گوگل اینجا و آنجا روی این موضوع کار کرده است:

بله، اساسا. گری در واقع برای ما در مورد این موضوع اطلاع رسانی کرده است. می‌دانید، ما با نمونه‌هایی از این دست مواجه می‌شویم، و تلاش می‌کنیم که ارائه‌دهندگان این نوع خدمات را با ما همکاری کنند، یا حداقل با گری کار کنند. نمی دانم با آنها چه می کند. او مسئول آن است. اما همه آنها به اندازه ای همکاری نمی کنند. بنابراین این چیزی است که باید از آن آگاه بود.

بنابراین چگونه می‌توانید از این سیاه‌چاله‌های گوگل دور بمانید؟ آلن گفت: “ساده ترین راه ارائه کدهای HTTP صحیح است، بنابراین، می دانید، یک 404 یا 403 یا 503 برای ما بفرستید. اگر این کار را انجام دهید، دسته بندی نمی کنید. ما فقط می توانیم صفحاتی را خوشه بندی کنیم. 200. فقط 200 ها به سیاهچاله ها می روند.”

گزینه دیگری که آلن گفت این بود:

گزینه دیگر در اینجا این است که اگر جاوا اسکریپت را انجام می دهید، در این صورت ممکن است نتوانید کد HTTP را برای ما ارسال کنید. شاید برای آن کمی دیر باشد کاری که می توانید در آنجا انجام دهید این است که می توانید سعی کنید یک پیام خطای واقعی را سرویس دهید، چیزی که به وضوح یک خطا است مانند، می دانید، می توانید به معنای واقعی کلمه بگویید، می دانید، 503 – ما با یک خطای سرور یا 403 مواجه شدیم – شما نبودید. مجاز به مشاهده این یا 404 – ما نتوانستیم فایل صحیح را پیدا کنیم. هر یک از آن چیزها کار می کند. می دانید، شما حتی نیازی به استفاده از کد HTTP ندارید. بدیهی است که شما فقط می توانید چیزی بگویید. خب، ما سیستمی داریم که قرار است صفحات خطا را شناسایی کند، و می‌خواهیم فراخوانی آن را فراتر از آنچه در حال حاضر انجام می‌دهد بهبود دهیم تا سعی کنیم برخی از این رندرهای بد و این صفحاتی که توسط ربات‌ها تایپ می‌شوند را برطرف کنیم. اما، در این میان، به طور کلی امن‌ترین کار این است که همه چیز را در دست خود بگیرید و سعی کنید مطمئن شوید که گوگل قصد شما را تا حد امکان درک می‌کند.

آنها به این موضوع ادامه می دهند و همه چیز در حدود ساعت 16:22 دقیقه شروع می شود – در اینجا ویدیوی جاسازی شده است:

بحث انجمن در X.

Source link