شفاف سازی نشت داده های گوگل

در طول تعطیلات ایالات متحده، برخی از پست‌ها درباره افشای اطلاعات مربوط به رتبه‌بندی گوگل به اشتراک گذاشته شد. اولین پست‌ها در مورد فاش‌ها بر روی باورهای «تأیید» متمرکز بود که مدت‌ها توسط رند فیشکین وجود داشت، اما توجه چندانی به بافت اطلاعات و معنای واقعی آن معطوف نشد.

موضوعات زمینه: انبار هوش مصنوعی سند

سند فاش شده در ارتباط با یک پلتفرم عمومی Google Cloud به نام Document AI Warehouse است که برای تجزیه و تحلیل، سازماندهی، جستجو و ذخیره داده ها استفاده می شود. این اسناد عمومی با عنوان Document AI Warehouse مروری است. یک پست در فیس بوک به اشتراک می گذارد که داده های “نشت کرده” “نسخه داخلی” اسناد قابل مشاهده Document AI Warehouse است. این زمینه این داده ها است.

اسکرین شات: انبار هوش مصنوعی اسناد

اسکرین شات

@DavidGQuaid توییت کرد:

«من فکر می‌کنم همانطور که از نامش پیداست، یک API روبه‌رو خارجی برای ساخت انبار اسناد است»

به نظر می‌رسد که این ایده که داده‌های «نشت‌شده» اطلاعات جستجوی داخلی Google را نشان می‌دهند، آب سردی می‌زند.

تا آنجا که در حال حاضر می دانیم، “داده های لو رفته” شباهت هایی با آنچه در صفحه عمومی انبار هوش مصنوعی اسناد وجود دارد دارد.

نشت داده های جستجوی داخلی؟

پست اصلی در SparkToro نمی گوید که داده ها از جستجوی Google منشاء می گیرند. می گوید که شخصی که داده ها را برای رند فیشکین ارسال کرده است، کسی است که این ادعا را مطرح کرده است.

یکی از چیزهایی که من در مورد رند فیشکین تحسین می کنم این است که او در نوشتن خود بسیار دقیق است، به خصوص در مورد اخطارها. رند دقیقاً خاطرنشان می‌کند که این شخصی است که داده‌ها را ارائه کرده است که ادعا می‌کند داده‌ها از جستجوی Google منشاء گرفته‌اند. هیچ مدرکی وجود ندارد، فقط یک ادعا است.

او می نویسد:

“من ایمیلی از شخصی دریافت کردم که ادعا می کرد به یک نشت گسترده اسناد API از داخل بخش جستجوی Google دسترسی دارد.”

خود فیشکین تایید نمی کند که این داده ها توسط کارمندان سابق گوگل تایید شده است که از جستجوی گوگل سرچشمه گرفته اند. او می نویسد که شخصی که داده ها را ایمیل کرده این ادعا را داشته است.

این ایمیل همچنین ادعا می‌کرد که این اسناد فاش شده توسط کارمندان سابق گوگل معتبر هستند و آن کارمندان سابق و سایرین اطلاعات خصوصی و اضافی را در مورد عملیات جستجوی Google به اشتراک گذاشته‌اند.

فیشکین در مورد یک جلسه ویدیویی بعدی می نویسد که در آن افشاکننده فاش کرد که تماس او با کارمندان سابق گوگل در زمینه ملاقات با آنها در یک رویداد صنعت جستجو بوده است. مجدداً، ما باید حرف افشاگران را در مورد کارمندان سابق گوگل بپذیریم و اینکه آنچه آنها گفته اند پس از بررسی دقیق داده ها بوده است و نه یک اظهارنظر غیررسمی.

فیشکین می نویسد که در این مورد با سه کارمند سابق گوگل تماس گرفته است. نکته قابل توجه این است که آن کارمندان سابق گوگل به صراحت تایید نکرده اند که داده ها در جستجوی گوگل داخلی هستند. آن‌ها فقط تأیید کردند که داده‌ها شبیه اطلاعات داخلی Google هستند، نه اینکه از جستجوی Google منشا گرفته باشند.

فیشکین آنچه را که کارمندان سابق گوگل به او گفته اند می نویسد:

  • زمانی که آنجا کار می کردم به این کد دسترسی نداشتم. اما این مطمئناً قانونی به نظر می رسد.»
  • “این همه ویژگی های یک API داخلی Google را دارد.”
  • این یک API مبتنی بر جاوا است. و شخصی زمان زیادی را صرف رعایت استانداردهای داخلی خود گوگل برای اسناد و نام‌گذاری کرد.»
  • “برای اطمینان به زمان بیشتری نیاز دارم، اما این با اسناد داخلی که من با آنها آشنا هستم مطابقت دارد.”
  • “هیچ چیزی که من در یک بررسی کوتاه دیدم نشان نمی دهد که این چیزی جز قانونی است.”

گفتن چیزی از جستجوی گوگل سرچشمه می گیرد و گفتن اینکه از گوگل سرچشمه می گیرد دو چیز متفاوت هستند.

ذهن خود را باز نگه دارید

مهم است که در مورد داده ها ذهن باز داشته باشید زیرا موارد زیادی در مورد آن وجود دارد که تأیید نشده است. برای مثال، معلوم نیست که آیا این یک سند داخلی تیم جستجو است. به همین دلیل احتمالاً ایده خوبی نیست که از این داده ها به عنوان توصیه عملی SEO استفاده کنید.

همچنین، تجزیه و تحلیل داده‌ها برای تأیید باورهای طولانی مدت توصیه نمی‌شود. اینگونه است که فرد گرفتار سوگیری تایید می شود.

تعریف سوگیری تایید:

“سوگیری تایید تمایل به جستجو، تفسیر، حمایت و یادآوری اطلاعات به گونه ای است که باورها یا ارزش های قبلی فرد را تایید یا پشتیبانی کند.”

سوگیری تاییدی منجر به انکار چیزهایی می شود که از نظر تجربی درست هستند. به عنوان مثال، این ایده چند دهه ای وجود دارد که گوگل به طور خودکار یک سایت جدید را از رتبه بندی دور نگه می دارد، نظریه ای به نام Sandbox. مردم هر روز گزارش می دهند که سایت های جدید و صفحات جدید آنها تقریباً بلافاصله در ده رتبه برتر جستجوی گوگل قرار می گیرند.

اما اگر به سندباکس ایمان دارید، تجربه واقعی قابل مشاهده مانند آن از بین خواهد رفت، مهم نیست که چند نفر تجربه مخالف را مشاهده کنند.

برندا مالون، استراتژیست فنی ارشد سئو و توسعه دهنده وب (نمایه لینکدین)، در مورد ادعاهای مربوط به Sandbox به من پیام داد:

من شخصاً از تجربه واقعی می‌دانم که تئوری Sandbox اشتباه است. من فقط در دو روز یک وبلاگ شخصی با دو پست ایندکس کردم. هیچ راهی وجود ندارد که یک سایت کوچک دو پست طبق نظریه Sandbox ایندکس شود.

نکته مهم در اینجا این است که اگر معلوم شود که مستندات از جستجوی Google منشاء می گیرند، روش نادرست برای تجزیه و تحلیل داده ها این است که به دنبال تأیید باورهای قدیمی باشید.

نشت داده های گوگل درباره چیست؟

پنج نکته در مورد داده های لو رفته وجود دارد:

  1. زمینه اطلاعات فاش شده ناشناخته است. آیا به جستجوی گوگل مربوط است؟ آیا برای اهداف دیگری است؟
  2. هدف داده ها آیا از اطلاعات برای نتایج جستجوی واقعی استفاده شد؟ یا برای مدیریت داده یا دستکاری داخلی استفاده شده است؟
  3. کارمندان سابق Google تأیید نکردند که داده‌ها مختص جستجوی Google است. آنها فقط تأیید کردند که به نظر می رسد از Google آمده است.
  4. ذهن خود را باز نگه دارید. اگر برای اثبات باورهای دیرینه به شکار می روید، حدس بزنید چه؟ آنها را در همه جا پیدا خواهید کرد. به این تعصب تایید می گویند.
  5. شواهد نشان می‌دهد که داده‌ها به یک API خارجی برای ساخت انبار اسناد مربوط می‌شوند.

آنچه دیگران در مورد اسناد “درز” می گویند

رایان جونز، شخصی که نه تنها تجربه عمیقی در سئو دارد، بلکه درک قابل توجهی از علوم کامپیوتر دارد، مشاهدات معقولی در مورد به اصطلاح نشت داده ها به اشتراک گذاشت.

رایان توییت کرد:

ما نمی دانیم که آیا این برای تولید است یا برای آزمایش. حدس من این است که بیشتر برای آزمایش تغییرات احتمالی است.

ما نمی دانیم چه چیزی برای وب یا سایر عمودی ها استفاده می شود. برخی چیزها ممکن است فقط برای خانه Google یا اخبار و غیره استفاده شوند.

ما نمی دانیم ورودی یک الگوی ML چیست و برای آموزش در برابر چه چیزی استفاده می شود. حدس من این است که کلیک‌ها ورودی مستقیم نیستند، بلکه برای آموزش مدلی برای پیش‌بینی قابلیت کلیک کردن استفاده می‌شوند. (خارج از افزایش روند)

من همچنین حدس می زنم که برخی از این زمینه ها فقط برای مجموعه داده های آموزشی اعمال می شود و نه همه سایت ها.

آیا می گویم گوگل دروغ نگفت؟ اصلا. اما بیایید این نشت را به صورت اعتراض آمیز و نه با هرگونه سوگیری از پیش تعیین شده بررسی کنیم.»

@DavidGQuaid توییت کرد:

ما همچنین نمی دانیم که آیا این برای جستجوی گوگل است یا بازیابی اسناد ابری گوگل

به نظر می رسد API ها انتخاب و انتخاب شوند – من انتظار دارم الگوریتم اینگونه اجرا نشود – اگر مهندس بخواهد تمام آن بررسی های کیفیت را رد کند چه می شود – به نظر می رسد که من می خواهم یک برنامه انبار محتوا برای پایگاه دانش سازمانی خود بسازم.

آیا داده های “نشت شده” مربوط به جستجوی گوگل است؟

در حال حاضر هیچ مدرک محکمی مبنی بر اینکه این داده‌های «نشت‌شده» واقعاً از جستجوی Google هستند وجود ندارد. مقدار زیادی ابهام در مورد هدف داده ها وجود دارد. نکته قابل توجه این است که نکاتی وجود دارد مبنی بر اینکه این داده ها فقط “یک API خارجی برای ایجاد انبار اسناد همانطور که از نام آن پیداست” است و به هیچ وجه به نحوه رتبه بندی وب سایت ها در جستجوی Google مرتبط نیست.

این نتیجه گیری که این داده ها از جستجوی گوگل نشأت گرفته اند در حال حاضر قطعی نیست، اما به نظر می رسد که شواهد در جهتی است که می وزد.

تصویر ویژه توسط Shutterstock/Jaaak

Source link