مارتین اسپلیت: چگونه گوگل از طریقmartinibuster

مارتین اسپلیت اطلاعات زیادی راجع به چگونگی شناسایی صفحات تکراری توسط Google به اشتراک گذاشت و سپس صفحه متعارف را برای قرار دادن در صفحات نتایج موتور جستجو انتخاب می کند .

وی همچنین چگونگی توزین حداقل 20 سیگنال مختلف را برای کمک به شناسایی صفحه متعارف و اینکه چرا از یادگیری ماشینی برای تنظیم وزن استفاده می شود ، به اشتراک گذاشت.

Google چگونه قانونمند کردن قانون را کنترل می کند < / h2>

مارتین ابتدا با بیان چگونگی پیمایش سایت ها و نمایه سازی اسناد شروع می کند. سپس او به مرحله بعدی ، متعارف سازی و شناسایی موارد تکراری می رود.

وی جزئیات را در مورد کاهش محتوا به یک چک چک ، یک عدد ، ارائه می دهد و سپس با مقایسه با چک کن های صفحات دیگر مقایسه می شود تا دسته های چک یکسان شناسایی شود.

مارتین:

“ما سیگنالها را جمع آوری می کنیم و اکنون به مرحله بعدی می رسیم ، که در واقع متعارف سازی و تشخیص dupe است. < p>… ابتدا شما باید دوپ ها را تشخیص دهید ، و اساساً آنها را با هم جمع کنید و بگویید که همه این صفحات کپی های یکدیگر هستند. و سپس شما اساساً باید یک صفحه رهبر برای همه آنها پیدا کنید.

و اینکه چگونه این کار را می کنیم این است که چگونه بیشتر افراد ، سایر موتورهای جستجو این کار را می کنند ، که اساساً کاهش محتوا به یک هش یا checksum و سپس مقایسه checksums.

و این به این دلیل است که انجام این کار بسیار آسان تر از مقایسه احتمالاً سه هزار کلمه است

… و بنابراین ما در حال کاهش محتوا به یک جمع چک و ما این کار را انجام می دهیم زیرا نمی خواهیم کل متن را اسکن کنیم زیرا این فقط منطقی نیست. اساساً منابع بیشتری نیاز دارد و نتیجه تقریباً یکسان خواهد بود. بنابراین ما چندین نوع چک چک را درباره محتوای متنی صفحه محاسبه می کنیم و سپس آن را با چک چک مقایسه می کنیم. “

تبلیغ

ادامه مطلب را در زیر ادامه دهید

اگر این فرآیند تقریباً نسخه های تکراری یا نسخه های دقیق را بدست آورد ، پاسخ بعدی را می دهد:

سوال خوبی است. می تواند هر دو را بگیرد. همچنین می تواند به کپی نزدیک شود.

الگوریتم های مختلفی داریم که به عنوان مثال سعی می کنند دیگ بخار را از صفحات شناسایی و سپس حذف کنند.

بنابراین ، به عنوان مثال ، ناوبری از محاسبه جمع چک. پاورقی را نیز بر می داریم. و سپس شما با آنچه ما آنرا قطعه مرکزی می نامیم ، که محتوای اصلی صفحه است ، روبرو می شوید ، نوعی مانند گوشت صفحه است.

وقتی محاسبه می کنیم به مأموریت های کنترلی و مقیاس های کنترلی را با هر کدام مقایسه می کنیم دیگر ، سپس آنهایی که تقریباً شبیه به هم هستند ، یا حداقل کمی کمی شبیه هم هستند ، ما آنها را در یک خوشه dupe قرار خواهیم داد. “

سپس از مارتین س askedال شد که checksum چیست:

“یک جمع چک اساساً یک هش از مطالب است. اصولاً اثر انگشت است. اساساً اثر انگشت چیزی است. در این حالت ، این محتوای پرونده است…

و سپس ، هنگامی که این چک باج ها را محاسبه کردیم ، خوشه dupe داریم. سپس باید یک سند را انتخاب کنیم که می خواهیم در نتایج جستجو نشان دهیم. “

تبلیغات < p> ادامه مطلب را در زیر بخوانید

سپس مارتین درباره دلیل جلوگیری از نمایش صفحات تکراری در SERP در Google صحبت کرد:

“چرا ما چنین کاری می کنیم؟ ما این کار را انجام می دهیم زیرا معمولاً کاربران وقتی محتوای مشابه در بسیاری از نتایج جستجو تکرار شود ، آن را دوست ندارند. و ما این کار را نیز انجام می دهیم زیرا فضای ذخیره سازی ما در فهرست بی نهایت نیست. اساساً ، چرا ما می خواهیم نسخه های کپی را در فهرست خود ذخیره کنیم؟ “

سپس او دوباره به قلب موضوع باز می گردد ، تکرارها را تشخیص می دهد و صفحه متعارف را انتخاب می کند:

“اما ، محاسبه متعارف کدام یک ، کدام صفحه برای هدایت خوشه ، در واقع آسان نیست. از آنجا که سناریوهایی وجود دارد که حتی برای انسانها نیز دشوار است که بگوییم کدام صفحه باید در نتایج جستجو وجود داشته باشد.

بنابراین ، من فکر می کنم بیش از بیست سیگنال استفاده می کنیم ، ما بیش از بیست سیگنال ، برای تعیین اینکه کدام صفحه به عنوان متعارف از یک خوشه dupe انتخاب شود.

و بسیاری از شما احتمالاً می توانید حدس بزنید که این سیگنال ها چه هستند. مانند یکی واضح است که محتوا است.

اما می تواند مواردی مانند PageRank باشد ، به عنوان مثال ، کدام صفحه دارای PageRank بالاتر است ، زیرا ما بعد از این همه سال هنوز از PageRank استفاده می کنیم.

می تواند باشد ، به خصوص در همان سایت ، کدام صفحه در https URL وجود دارد ، کدام صفحه در نقشه سایت گنجانده شده است ، یا اگر یک صفحه به صفحه دیگر هدایت می شود ، این یک سیگنال کاملاً واضح است که صفحه دیگر باید متعارف شود ، rel = ویژگی متعارف again دوباره یک سیگنال قوی است… زیرا… کسی مشخص کرد که آن صفحه دیگر باید متعارف باشد.

و سپس هنگامی که همه این سیگنال ها را برای همه جفت های صفحه مقایسه کردیم ، در نهایت به نتیجه واقعی می رسیم ابتدایی. و سپس هر یک از این سیگنال هایی که ما استفاده می کنیم وزن مخصوص خود را دارند. و ما از voodoo یادگیری ماشینی برای محاسبه وزن این سیگنالها استفاده می کنیم. ”

“اما به عنوان مثال ، برای ایده دادن به شما ، تغییر مسیر 301 یا هر نوع تغییر مسیر در واقع ، در مورد قانونی سازی باید از وزن بسیار بالاتری نسبت به اینکه آیا صفحه در http است ، باشد. URL یا https.

زیرا در نهایت کاربر هدف هدایت را مشاهده می کند. بنابراین منطقی نیست که منبع تغییر مسیر را در نتایج جستجو بگنجانید. “

مولر از او می پرسد چرا Google برای یادآوری ماشین برای تنظیم وزن سیگنال ها از یادگیری ماشین استفاده می کند: >

“بنابراین آیا ما بعضی اوقات اشتباه می کنیم؟ چرا ما به یادگیری ماشینی احتیاج داریم ، مثل اینکه واضح است که این وزنه ها را یک بار یادداشت می کنیم و بعد کاملاً عالی است ، درست است؟ “

مارتین سپس حکایتی را در مورد کار بر روی متعارف سازی به اشتراک گذاشت و سعی کرد hreflang را در محاسبه وارد کند یک سیگنال او گفت که تلاش برای تنظیم دستی وزنه ها یک کابوس است. وی گفت که تنظیم دستی اوزان می تواند سایر وزنه ها را دور بیندازد و منجر به نتایج غیرمنتظره ای مانند نتایج جستجوی عجیب و غریب شود که منطقی نبود.

تبلیغ

ادامه مطلب را در زیر بخوانید

او یک نمونه اشکال از صفحات با URL کوتاه را به طور ناگهانی با رتبه بندی بهتر به اشتراک گذاشت ، که مارتین آن را نامید احمقانه است.

او همچنین حکایتی را در مورد دستیابی به منظور کاهش سیگنال نقشه سایت برای مقابله با اشکال مربوط به قانونگذاری به اشتراک گذاشت ، اما این باعث می شود که سیگنال دیگری قوی تر شود ، که باعث مشکلات دیگری می شود. نکته مهم این است که همه سیگنال های وزنی ارتباط تنگاتنگی با هم دارند و یادگیری ماشین برای ایجاد موفقیت در توزین نیاز دارد.

مارتین:

“بیایید بگویید که … وزن سیگنال نقشه سایت خیلی زیاد است. و سپس ، بگذارید بگوییم که تیم dupes می گوید ، خوب ، بیایید آن سیگنال را بیت کوچکی کاهش دهیم.

اما بعد وقتی این سیگنال را یک بیت کوچک کاهش می دهند ، سیگنال دیگری قدرتمندتر می شود.

اما در واقع نمی توانید سیگنال را کنترل کنید زیرا بیست سیگنال وجود دارد.

و سپس آن سیگنال دیگر را که به طور ناگهانی قدرتمندتر یا سنگین تر شد ، تغییر داده و سپس سیگنال دیگری را پرتاب می کند. و سپس شما آن را تغییر داده و اساساً یک بازی بی پایان است ، این یک ضربت سخت زدن است.

بنابراین اگر همه این سیگنال ها را به یک الگوریتم یادگیری ماشین به علاوه تمام نتایج دلخواه تغذیه کنید ، می تواند آن را آموزش دهد تا این وزن ها را برای شما تعیین کند و سپس از آن وزنه هایی استفاده کند که توسط الگوریتم یادگیری ماشین محاسبه یا پیشنهاد شده است. “

تبلیغات

ادامه مطلب را در زیر بخوانید

جان مولر در ادامه س twentyال می کند که آیا این بیست وزن مانند سیگنال نقشه سایت که قبلاً ذکر شد می تواند سیگنال های رتبه بندی باشد؟ .

مولر:

“آیا این وزن ها نیز مانند یک عامل رتبه بندی هستند؟ … یا آیا قانون گذاری مستقل از رتبه بندی است؟ “

مارتین پاسخ داد:

” بنابراین ، قانون گذاری کاملاً مستقل از رتبه بندی است. اما صفحه ای که به عنوان متعارف انتخاب می کنیم در انتها در صفحات نتایج جستجو قرار می گیرد و بر اساس این سیگنال ها رتبه بندی می شود. “

Takeaways

مارتین یک مورد عالی را به اشتراک گذاشت در مورد چگونگی متعارف کردن ، از جمله پیچیدگی آن ، معامله کنید. آنها در مورد نوشتن این اطلاعات در تاریخ بعدی بحث کردند اما از نوشتن همه این مطالب دلهره آور به نظر می رسیدند.

قسمت پادکست با عنوان “چگونگی نوشتن و انتشار محتوای جستجوی فنی در Google و موارد دیگر” ! ” اما باید بگویم که جالب ترین قسمت توصیف مارتین در مورد شرع سازی در داخل Google بود.

به کل پادکست گوش دهید:

جستجوی خارج از Record Podcast

سئو PBN | خبر های جدید سئو و هک و سرور