در تلاشهای سئوی خود، ما همیشه به دنبال روشهای نوآورانه برای ارزیابی کیفیت صفحه هستیم. اخیراً مقالهای در ژورنال موتورهای جستجو ما را به فکر یک رویکرد منحصر به فرد انداخت: استفاده نسبت تراکم به عنوان یک سیگنال برای محتوای با کیفیت پایین. با الهام از این مفهوم، و همچنین یک مقاله تحقیقاتی در سال 2006 در مورد تشخیص هرزنامه، تصمیم گرفتیم بررسی کنیم که آیا فشردهسازی صفحه میتواند مشکلات بالقوه کیفیت را در سایت خودمان آشکار کند.
برای آزمایش این، ما یک اسکریپت پایتون برای تجزیه و تحلیل نسبت فشرده سازی صفحه تهیه کردیم. ایده اصلی این است که صفحات با محتوای اضافی یا کم ارزش بیشتر از صفحات با کیفیت بالا و آموزنده فشرده می شوند. این محتوای اضافی یا کم ارزش اغلب در صفحات اسپم یا محتوای سئو با کیفیت پایین نشان داده می شود.
ما این را در هر صفحه از وب سایت Go Fish Digital اجرا کردیم. نتایج نشان می دهد که ما 157 صفحه در سایت خود داریم که امتیاز آنها بالاتر از 4.0 است – آستانه ای که مطالعه نشان می دهد احتمال کیفیت پایین صفحه بیشتر از 50٪ است. در زیر، اسکریپتی را که برای کمک به امتیاز دادن به یک صفحه وب ایجاد کردهایم مرور میکنیم و هر قسمت را توضیح میدهیم تا بتوانید از آن برای تجزیه و تحلیل صفحات خود استفاده کنید.
ما میتوانیم به شما کمک کنیم که برای شناسایی مشکلات کیفیت محتوا، به کل سایت خود امتیاز دهید.
درخواست یک پیشنهاد سفارشی
درک نسبت تراکم به عنوان معیار کیفیت
تئوری ساده است: الگوریتم های فشرده سازی مانند gzip با حذف داده های اضافی، اندازه فایل ها را کاهش می دهند. اگر یک صفحه به طور قابل توجهی فشرده شود، احتمالاً محتوای تکراری یا دیگ بخار زیادی دارد. طبق تحقیقاتی که ما بررسی کردیم، نسبت فشرده سازی بالا می تواند نشان دهنده صفحات با کیفیت پایین تر یا هرزنامه باشد، زیرا اغلب حاوی عبارات تکراری، کلمات کلیدی بیش از حد یا محتوای کلی “پرکننده” هستند. با اندازهگیری این نسبت، میتوانیم صفحاتی را شناسایی کنیم که ممکن است بر کیفیت کلی یک سایت تأثیر بگذارند.
کد پایتون: تجزیه و تحلیل نسبت های فشرده سازی صفحه
ما کد پایتون را تهیه کردیم که یک صفحه را واکشی می کند، محتوای اصلی آن را استخراج می کند، آن را فشرده می کند و سپس نسبت فشرده سازی را محاسبه می کند. در زیر، هر تابع را تجزیه میکنیم و کد اسکریپت کامل را در زیر ارائه میکنیم.
شکستن کد
بیایید نگاهی دقیق تر به هر یک از عملکردها بیندازیم و نحوه عملکرد آنها را توضیح دهیم. ما از طریق ماژول های پایتون مورد نیاز، نحوه درخواست صفحه و استخراج متن، محاسبه نسبت فشرده سازی و چاپ نتایج را بررسی خواهیم کرد. در نهایت، ما کل اسکریپت را در پایان به اشتراک خواهیم گذاشت.
مرحله 1: ماژول های پایتون مورد نیاز را وارد کنید
برای شروع ما می خواهیم از درخواست ها، BeautifulSoup و gzip استفاده کنیم. ما اینها را به بالای فیلمنامه خود اضافه کردیم.
import requests
from bs4 import BeautifulSoup
import gzip
مرحله 2: صفحه وب را واکشی و تجزیه کنید
سپس یک تابع fetch_and_pars ایجاد کردیم که درخواستی را به URL ارسال می کند و محتوای HTML را با استفاده از BeautifulSoup تجزیه می کند. ما همچنین برچسب های غیر ضروری را حذف می کنیم (