چگونه Google Canonical Page را انتخاب می کند

گری ایلیس از گوگل اطلاعات زیادی در مورد چگونگی شناسایی صفحات تکراری توسط Google به اشتراک گذاشت و سپس صفحه متعارف را برای قرار دادن در صفحات نتایج موتور جستجو انتخاب می کند.

وی همچنین چگونگی توزین حداقل بیست سیگنال مختلف را برای کمک به شناسایی صفحه متعارف و اینکه چرا از یادگیری ماشین برای تنظیم وزن استفاده می شود ، به اشتراک گذاشت.

چگونه Google با قانونگذاری متعارف برخورد می کند

گری ابتدا با بیان چگونگی پیمایش سایت ها و نمایه سازی اسناد شروع می کند. سپس او به مرحله بعدی ، متعارف سازی و شناسایی موارد تکراری می رود.

او جزئیات مربوط به کاهش محتوا را به یک جمع چک ، یک عدد ، می دهد و سپس برای شناسایی دسته های کنترل یکسان ، با چک باکس سایر صفحات مقایسه می شود.

گری:

“ما سیگنالها را جمع آوری می کنیم و اکنون به مرحله بعدی می رسیم ، که در واقع متعارف سازی و تشخیص dupe است.

… ابتدا شما باید دوت ها را تشخیص دهید ، و اساساً آنها را با هم خوشه بندی کنید و بگویید که همه این صفحات کپی های یکدیگر هستند. و سپس شما اساساً باید یک صفحه رهبر برای همه آنها پیدا کنید.

و اینکه چگونه این کار را می کنیم شاید این است که اکثر افراد ، موتورهای جستجوگر دیگر این کار را انجام می دهند ، که اساساً کاهش محتوا به یک هش یا مجموعه چک و سپس مقایسه کنترلی است.

و این بدان دلیل است که انجام این کار بسیار آسان تر از مقایسه احتمالاً سه هزار کلمه است …

… و بنابراین ما در حال کاهش محتوا به یک بخش کنترل هستیم و این کار را می کنیم زیرا نمی خواهیم کل متن را اسکن کنیم زیرا این فقط منطقی نیست. اساساً منابع بیشتری نیاز دارد و نتیجه تقریباً یکسان خواهد بود. بنابراین ما چندین نوع چک چک را در مورد محتوای متنی صفحه محاسبه می کنیم و سپس با چک بام مقایسه می کنیم. “

تبلیغات

ادامه مطلب را در زیر بخوانید

اگر این فرآیند تقریباً تکراری یا دقیقاً تکرار می کند ، گری پاسخ می دهد:

سؤال خوبی بود. می تواند هر دو را بگیرد. همچنین می تواند به کپی نزدیک شود.

ما چندین الگوریتم داریم که به عنوان مثال ، سعی می کنیم دیگ بخار را از صفحات شناسایی و حذف کنیم.

بنابراین ، به عنوان مثال ، ما ناوبری را از محاسبه جمع چک حذف می کنیم. پاورقی را نیز بر می داریم. و سپس شما با آنچه که ما مرکز آن می نامیم ، که محتوای اصلی صفحه است ، مانند گوشت صفحه باقی مانده است.

وقتی محاسبه می کنیم و صندوق های کنترل را با یکدیگر مقایسه می کنیم ، آنهایی که کاملاً مشابه هستند یا حداقل کمی شبیه هم هستند ، آنها را در یک خوشه dupe قرار می دهیم. “

سپس از گری سال شد که مجموعه کنترل چیست:

“یک چک چک اساساً هش محتوای آن است. اصولاً اثر انگشت است. اصولاً اثر انگشت چیزی است. در این حالت ، محتوای پرونده است …

و پس از محاسبه این دسته های کنترل ، خوشه dupe داریم. سپس ما باید یک سند را انتخاب کنیم ، که می خواهیم در نتایج جستجو نشان دهیم. “

تبلیغات

ادامه مطلب را در زیر بخوانید

سپس گری درباره دلیل جلوگیری از نمایش صفحات تکراری در SERP در Google صحبت کرد:

“چرا ما آن را انجام می دهیم؟ ما این کار را انجام می دهیم زیرا معمولاً کاربران وقتی محتوای مشابه در بسیاری از نتایج جستجو تکرار می شود ، آن را دوست ندارند. و ما این کار را نیز انجام می دهیم زیرا فضای ذخیره سازی ما در فهرست بی نهایت نیست. اساساً چرا ما می خواهیم نسخه های کپی را در فهرست خود ذخیره کنیم؟ “

سپس او به مرکز موضوع باز می گردد ، موارد تکراری را تشخیص می دهد و صفحه متعارف را انتخاب می کند:

“اما ، محاسبه متعارف ، کدام صفحه برای هدایت خوشه ، در واقع آسان نیست. از آنجا که سناریوهایی وجود دارد که حتی برای انسان ها نیز دشوار است که بگوییم کدام صفحه باید در نتایج جستجو وجود داشته باشد.

بنابراین ، من فکر می کنم بیش از بیست سیگنال استفاده می کنیم ، ما بیش از بیست سیگنال استفاده می کنیم تا تصمیم بگیریم کدام صفحه را به عنوان متعارف از یک خوشه dupe انتخاب کنیم.

و بیشتر شما احتمالاً می توانید حدس بزنید که این سیگنال ها چه خواهند بود. مانند یکی بدیهی است که محتوا باشد.

اما این می تواند مواردی مانند PageRank باشد ، به عنوان مثال ، کدام صفحه دارای PageRank بالاتر است ، زیرا ما بعد از این همه سال هنوز از PageRank استفاده می کنیم.

ممکن است باشد ، مخصوصاً در همان سایت ، کدام صفحه در https URL باشد ، کدام صفحه در نقشه سایت موجود باشد ، یا اگر یک صفحه به صفحه دیگر هدایت شود ، این یک سیگنال کاملاً واضح است که صفحه دیگر باید متعارف شود ، ویژگی rel = canonical again دوباره یک سیگنال قوی است… زیرا… شخصی مشخص کرد که آن صفحه دیگر باید متعارف باشد.

و پس از آنکه همه این سیگنال ها را برای همه جفت های صفحه مقایسه کردیم ، در نهایت به متعارف واقعی خواهیم رسید. و سپس هر یک از این سیگنال هایی که ما استفاده می کنیم وزن مخصوص خود را دارند. و ما برای محاسبه وزن این سیگنال ها از برخی از voodoo یادگیری ماشین استفاده می کنیم. “

او اکنون گرانول شده و دلیل اینکه چرا Google وزنه های سنگین تری از سیگنال URL http / https می دهد را توضیح می دهد:

“اما به عنوان مثال ، برای ایده دادن به شما ، تغییر مسیر 301 یا هر نوع تغییر مسیر در واقع ، در مورد قانونگذاری باید از وزن بسیار بالاتری نسبت به اینکه این صفحه در یک URL http یا https است ، باشد.

زیرا در نهایت کاربر هدف هدایت را مشاهده می کند. بنابراین منطقی نیست که منبع تغییر مسیر را در نتایج جستجو بگنجانید. “

مولر از او می پرسد چرا Google برای تنظیم وزن سیگنال از یادگیری ماشین استفاده می کند:

“بنابراین آیا ما گاهی اوقات اشتباه می کنیم؟ چرا به یادگیری ماشینی احتیاج داریم ، مثل اینکه واضح است که این وزنه ها را یک بار یادداشت می کنیم و بعد کاملاً عالی است ، درست است؟ “

سپس گری حکایتی را در مورد متعارف کردن به اشتراک گذاشت و سعی کرد hreflang را به عنوان یک سیگنال در محاسبه وارد کند. او گفت که تلاش برای تنظیم دستی وزنه ها یک کابوس است. وی گفت که تنظیم دستی اوزان می تواند سایر وزنه ها را دور بیندازد و منجر به نتایج غیرمنتظره ای مانند نتایج جستجوی عجیب شود که منطقی نبود.

تبلیغات

ادامه مطلب را در زیر بخوانید

او یک نمونه اشکال از صفحات با URL کوتاه را که ناگهان رتبه بهتری داشتند ، به اشتراک گذاشت که گری آن را احمقانه خواند.

وی همچنین حکایتی را در رابطه با کاهش دستی سیگنال نقشه سایت به منظور مقابله با یک اشکال مربوط به canonicalization به اشتراک گذاشت ، اما این باعث می شود سیگنال دیگری قوی تر شود ، که این امر باعث مشکلات دیگری می شود.

نکته ای که وجود دارد این است که تمام سیگنال های وزنی ارتباط تنگاتنگی با هم دارند و برای ایجاد موفقیت در توزین نیاز به یادگیری ماشین است.

گری:

“بیایید بگوییم که … وزن سیگنال نقشه سایت خیلی زیاد است. و سپس ، بگذارید بگوییم که تیم dupes می گوید ، خوب بیایید این سیگنال را کمی کوچک کنیم.

اما بعد وقتی آنها سیگنال را کمی کوچک می کنند ، سیگنال دیگری قدرتمندتر می شود.

اما در واقع نمی توانید سیگنال را کنترل کنید زیرا مانند بیست سیگنال وجود دارد.

و سپس آن سیگنال دیگر را که به طور ناگهانی قدرتمندتر یا سنگین تر شده ، تغییر داده و سپس سیگنال دیگری را پرتاب می کند. و سپس شما آن را نیشگون می گیرید و اساساً یک بازی بی پایان است ، اساساً یک ضربت سخت است.

بنابراین اگر همه این سیگنال ها را به الگوریتم یادگیری ماشین به علاوه تمام نتایج دلخواه تغذیه کنید ، می توانید آن را آموزش دهید تا این وزن ها را برای شما تنظیم کند و سپس از آن وزنه هایی استفاده کنید که توسط الگوریتم یادگیری ماشین محاسبه یا پیشنهاد شده است. “

تبلیغات

ادامه مطلب را در زیر بخوانید

در ادامه جان مولر می پرسد آیا این بیست وزن مانند سیگنال نقشه سایت که قبلاً ذکر شد می تواند سیگنال های رتبه بندی باشد؟

مولر:

“آیا این وزن ها نیز مانند یک عامل رتبه بندی هستند؟ … یا آیا قانون شرعی مستقل از رتبه بندی است؟ “

گری جواب داد:

“بنابراین ، متعارف سازی کاملاً مستقل از رتبه بندی است. اما صفحه ای که به عنوان متعارف انتخاب می کنیم در انتها در صفحات نتایج جستجو قرار می گیرد و براساس این علائم رتبه بندی می شود. “

غذاهای آماده

گری در مورد چگونگی قانونی سازی ، از جمله پیچیدگی آن ، موارد زیادی را با ما در میان گذاشت. آنها در مورد نوشتن این اطلاعات در تاریخ بعدی بحث کردند اما از نوشتن همه این مطالب دلهره آور به نظر می رسیدند.

این قسمت از پادکست تحت عنوان “چگونگی نوشتن و انتشار محتوای جستجوی فنی در Google و موارد دیگر!” اما باید بگویم که جالب ترین قسمت توصیف گری از شرعی شدن در داخل گوگل بود.

به کامل پادکست گوش دهید:

جستجوی ضبط پادکست

سئو PBN | خبر های جدید سئو و هک و سرور