استفاده گوگل از فیلترهای بلوم، داده های فیلتر شده بالاتر در کنسول جستجو را توضیح می دهد

در آخرین قسمت از جلسه پرسش و پاسخ ماهانه ساعات اداری Google، سؤالی در مورد حجم بالاتر داده های فیلتر شده در مقایسه با داده های کلی در کنسول جستجوی Google مطرح شد.

این سوال پاسخ مفصلی را از گری ایلیس، یکی از اعضای تیم روابط جستجوی گوگل، که استفاده گوگل از فیلترهای شکوفه را روشن کرد، به همراه داشت.

داده های نامتناسب در کنسول جستجو

سوال این بود که “چرا داده های فیلتر شده بالاتر از داده های کلی در کنسول جستجو است، هیچ منطقی ندارد.”

در ظاهر، این ممکن است به عنوان یک تناقض به نظر برسد.

انتظار این است که داده های کلی باید جامع تر و در نتیجه گسترده تر از هر زیر مجموعه فیلتر شده باشد.

با این حال، این چیزی نیست که کاربران تجربه می کنند. اینجا چه خبره؟

کنسول جستجو و فیلترهای بلوم

ایلیس پاسخ خود را اینگونه آغاز می کند:

پاسخ کوتاه این است که ما به شدت از چیزی به نام فیلترهای بلوم استفاده می کنیم زیرا باید داده های زیادی را مدیریت کنیم و فیلترهای بلوم می توانند در زمان و فضای ذخیره سازی ما صرفه جویی کنند.

وقتی شما تعداد زیادی آیتم را در یک مجموعه مدیریت می کنید، و منظورم میلیاردها آیتم است، اگر نگوییم تریلیون ها، جستجوی سریع چیزها فوق العاده سخت می شود. اینجاست که فیلترهای بلوم به کار می‌آیند.»

فیلترهای بلوم با مراجعه به مجموعه جداگانه ای از داده های هش شده یا کدگذاری شده، جستجو در داده های بزرگ را سرعت می بخشند.

ایلیز توضیح می دهد که این امکان تجزیه و تحلیل سریعتر اما کمتر دقیق را فراهم می کند:

«از آنجایی که ابتدا به دنبال هش می‌گردید، بسیار سریع است، اما هش کردن گاهی اوقات با از دست دادن داده‌ها همراه می‌شود، چه هدفمند یا غیر هدفمند، و این داده‌های از دست رفته همان چیزی است که شما تجربه می‌کنید: داده‌های کمتر برای مرور به معنای پیش‌بینی دقیق‌تر در مورد اینکه آیا چیزی وجود دارد یا خیر. در مجموعه اصلی وجود دارد یا نه، و این داده‌های از دست رفته همان چیزی است که شما تجربه می‌کنید: داده‌های کمتری که باید از طریق آنها مرور شود به معنای پیش‌بینی دقیق‌تر درباره وجود یا عدم وجود چیزی در مجموعه اصلی است.

اساساً، فیلترهای بلوم با پیش‌بینی اینکه آیا چیزی در مجموعه داده‌ای وجود دارد یا خیر، جستجوها را سرعت می‌بخشند، اما به بهای دقت، و هرچه مجموعه داده کوچک‌تر باشد، پیش‌بینی‌ها دقیق‌تر هستند.

سرعت بیش از دقت: یک معامله عمدی

توضیح ایلیز یک مبادله عمدی را نشان می دهد: سرعت و کارایی بیش از دقت کامل.

این رویکرد ممکن است شگفت‌انگیز باشد، اما در هنگام برخورد با مقیاس وسیع داده‌هایی که Google روزانه مدیریت می‌کند، یک استراتژی ضروری است.

به طور خلاصه

داده‌های فیلتر شده می‌تواند بالاتر از داده‌های کلی در کنسول جستجو باشد، زیرا Google از فیلترهای بلوم برای تجزیه و تحلیل سریع حجم وسیعی از داده‌ها استفاده می‌کند.

فیلترهای بلوم به گوگل این امکان را می دهند که با تریلیون ها نقطه داده کار کند، اما برخی از دقت را قربانی می کنند.

این مبادله عمدی است. گوگل بیشتر از دقت 100 درصد به سرعت اهمیت می دهد. نادرستی های جزئی ارزش آن را دارد که گوگل به سرعت داده ها را تجزیه و تحلیل کند.

بنابراین، این اشتباه نیست که ببینیم داده های فیلتر شده بالاتر از داده های کلی هستند. این نحوه عملکرد فیلترهای شکوفه است.


تصویر ویژه: تتیانا یورچنکو/ شاتر استوک

سئو PBN | خبر های جدید سئو و هک و سرور