آیا این الگوریتم محتوای مفید گوگل است؟

گوگل یک مقاله تحقیقاتی پیشگامانه در مورد شناسایی کیفیت صفحه با هوش مصنوعی منتشر کرد. جزئیات الگوریتم به طور قابل توجهی شبیه به آنچه که الگوریتم محتوای مفید شناخته شده است، شبیه است.

گوگل فناوری های الگوریتم را شناسایی نمی کند

هیچ کس خارج از گوگل نمی تواند با اطمینان بگوید که این مقاله تحقیقاتی اساس سیگنال محتوای مفید است.

گوگل عموماً فناوری زیربنایی الگوریتم‌های مختلف خود مانند الگوریتم‌های پنگوئن، پاندا یا SpamBrain را شناسایی نمی‌کند.

بنابراین نمی توان با قاطعیت گفت که این الگوریتم الگوریتم محتوای مفید است، فقط می توان حدس زد و در مورد آن نظر داد.

اما ارزش نگاه کردن را دارد زیرا شباهت ها چشم باز است.

سیگنال محتوای مفید

1. یک طبقه بندی کننده را بهبود می بخشد

گوگل سرنخ های زیادی در مورد سیگنال محتوای مفید ارائه کرده است، اما هنوز گمانه زنی های زیادی در مورد اینکه واقعا چیست وجود دارد.

اولین سرنخ ها در توییت 6 دسامبر 2022 بود که اولین به روز رسانی محتوای مفید را اعلام کرد.

این توییت گفت:

«این طبقه‌بندی‌کننده ما را بهبود می‌بخشد و در سراسر محتوا در همه زبان‌ها کار می‌کند.»

طبقه‌بندی‌کننده، در یادگیری ماشین، چیزی است که داده‌ها را دسته‌بندی می‌کند (این است یا آن؟).

2. این یک اقدام دستی یا هرزنامه نیست

الگوریتم محتوای مفید، طبق توضیح دهنده گوگل (آنچه سازندگان باید در مورد به روز رسانی محتوای مفید اوت 2022 گوگل بدانند)، یک اقدام هرزنامه یا یک اقدام دستی نیست.

این فرآیند طبقه‌بندی‌کننده با استفاده از یک مدل یادگیری ماشینی کاملاً خودکار است.

این یک اقدام دستی و یا یک اقدام هرزنامه نیست.

3. این یک سیگنال مرتبط با رتبه بندی است

توضیح دهنده به روز رسانی محتوای مفید می گوید که الگوریتم محتوای مفید سیگنالی است که برای رتبه بندی محتوا استفاده می شود.

“…این فقط یک سیگنال جدید و یکی از سیگنال های بسیاری است که گوگل برای رتبه بندی محتوا ارزیابی می کند.”

4. بررسی می کند که آیا محتوا توسط افراد است یا خیر

نکته جالب این است که سیگنال محتوای مفید (ظاهراً) بررسی می کند که آیا محتوا توسط افراد ایجاد شده است یا خیر.

پست وبلاگ Google در به‌روزرسانی محتوای مفید (محتوای بیشتر توسط افراد، برای افراد در جستجو) بیان کرد که این سیگنالی برای شناسایی محتوای ایجاد شده توسط افراد و افراد است.

دنی سالیوان از گوگل نوشت:

«…ما در حال ارائه یک سری پیشرفت‌ها در «جستجو» هستیم تا افراد بتوانند محتوای مفیدی را که توسط و برای افراد ساخته شده است، آسان‌تر پیدا کنند.

ما مشتاقانه منتظریم تا بر اساس این اثر بسازیم تا یافتن محتوای اصلی توسط و برای افراد واقعی در ماه‌های آینده آسان‌تر شود.»

مفهوم “توسط مردم” بودن محتوا سه بار در اعلامیه تکرار می شود، ظاهراً نشان می دهد که این یک کیفیت سیگنال محتوای مفید است.

و اگر “توسط افراد” نوشته نشده باشد، توسط ماشین تولید شده است، که یک ملاحظه مهم است زیرا الگوریتم مورد بحث در اینجا به تشخیص محتوای تولید شده توسط ماشین مربوط می شود.

5. آیا محتوای مفید سیگنال چند چیز است؟

در نهایت، به نظر می رسد اعلامیه وبلاگ Google نشان می دهد که به روز رسانی محتوای مفید فقط یک چیز نیست، مانند یک الگوریتم.

دنی سالیوان می نویسد که این یک “مجموعه ای از پیشرفت هاکه، اگر زیاد در آن مطالعه نکنم، به این معنی است که این فقط یک الگوریتم یا سیستم نیست، بلکه چندین الگوریتم با هم وظیفه حذف محتوای غیر مفید را انجام می دهند.

این چیزی است که او نوشت:

«…ما در حال ارائه یک سری پیشرفت‌ها در «جستجو» هستیم تا افراد بتوانند محتوای مفیدی را که توسط و برای افراد ساخته شده است، آسان‌تر پیدا کنند.»

مدل های تولید متن می توانند کیفیت صفحه را پیش بینی کنند

آنچه این مقاله تحقیقاتی کشف می کند این است که مدل های زبان بزرگ (LLM) مانند GPT-2 می توانند محتوای با کیفیت پایین را به دقت شناسایی کنند.

آن‌ها از طبقه‌بندی‌کننده‌هایی استفاده کردند که برای شناسایی متن‌های تولید شده توسط ماشین آموزش دیده بودند و متوجه شدند که همان طبقه‌بندی‌کننده‌ها می‌توانند متن با کیفیت پایین را شناسایی کنند، حتی اگر برای انجام این کار آموزش ندیده باشند.

مدل های زبان بزرگ می توانند یاد بگیرند که چگونه کارهای جدیدی را انجام دهند که برای انجام آنها آموزش ندیده اند.

یک مقاله دانشگاه استنفورد در مورد GPT-3 بحث می کند که چگونه به طور مستقل توانایی ترجمه متن از انگلیسی به فرانسوی را یاد گرفته است، صرفاً به این دلیل که داده های بیشتری برای یادگیری از آن داده شده است، چیزی که با GPT-2، که کمتر آموزش داده شده بود، اتفاق نیفتاد. داده ها.

این مقاله به این نکته اشاره می‌کند که چگونه افزودن داده‌های بیشتر باعث ظهور رفتارهای جدید می‌شود که نتیجه آن چیزی است که نامیده می‌شود آموزش بدون نظارت

آموزش بدون نظارت زمانی است که یک ماشین یاد می گیرد که چگونه کاری را انجام دهد که برای انجام آن آموزش ندیده است.

آن کلمه “ظهور” مهم است زیرا به زمانی اشاره دارد که ماشین یاد می گیرد کاری را انجام دهد که برای انجام آن آموزش ندیده است.

مقاله دانشگاه استنفورد در مورد GPT-3 توضیح می دهد:

شرکت‌کنندگان در کارگاه گفتند که از این که چنین رفتاری از مقیاس‌بندی ساده داده‌ها و منابع محاسباتی پدید می‌آید شگفت‌زده شده‌اند و در مورد اینکه چه قابلیت‌های بیشتری از مقیاس‌های بیشتر ظاهر می‌شود، کنجکاوی کردند.

یک توانایی جدید در حال ظهور دقیقاً همان چیزی است که مقاله تحقیقاتی توصیف می کند. آنها کشف کردند که یک آشکارساز متن تولید شده توسط ماشین نیز می تواند محتوای با کیفیت پایین را پیش بینی کند.

محققان می نویسند:

کار ما دو جنبه دارد: اولاً ما از طریق ارزیابی انسانی نشان می‌دهیم که طبقه‌بندی‌کننده‌هایی که برای تمایز بین متن تولید شده توسط انسان و ماشین آموزش دیده‌اند، به‌عنوان پیش‌بینی‌کننده‌های بدون نظارت «کیفیت صفحه» ظاهر می‌شوند و می‌توانند محتوای با کیفیت پایین را بدون هیچ آموزشی تشخیص دهند.

این امکان راه‌اندازی سریع شاخص‌های کیفیت را در محیطی با منابع کم فراهم می‌کند.

ثانیاً، کنجکاو برای درک شیوع و ماهیت صفحات با کیفیت پایین در طبیعت، ما تجزیه و تحلیل کیفی و کمی گسترده ای را بیش از 500 میلیون مقاله وب انجام می دهیم و این را به بزرگترین مطالعه در مقیاسی تبدیل می کنیم که تاکنون در مورد این موضوع انجام شده است.

نکته مهم در اینجا این است که آنها از یک مدل تولید متن آموزش دیده برای شناسایی محتوای تولید شده توسط ماشین استفاده کردند و کشف کردند که یک رفتار جدید ظاهر شده است، توانایی شناسایی صفحات با کیفیت پایین.

آشکارساز OpenAI GPT-2

محققان دو سیستم را آزمایش کردند تا ببینند چقدر برای تشخیص محتوای با کیفیت پایین کار می کنند.

یکی از سیستم‌ها از RoBERTa استفاده می‌کرد که یک روش پیش‌آموزشی است که نسخه بهبودیافته BERT است.

این دو سیستم تست شده هستند:

آنها دریافتند که آشکارساز GPT-2 OpenAI در تشخیص محتوای کم کیفیت برتر است.

شرح نتایج آزمون دقیقاً منعکس کننده چیزهایی است که ما در مورد سیگنال محتوای مفید می دانیم.

هوش مصنوعی تمام اشکال هرزنامه زبان را تشخیص می دهد

مقاله تحقیقاتی بیان می کند که سیگنال های کیفیت زیادی وجود دارد اما این رویکرد فقط بر کیفیت زبانی یا زبانی تمرکز دارد.

برای اهداف این مقاله پژوهشی الگوریتم، عبارات “کیفیت صفحه” و “کیفیت زبان” به یک معنا هستند.

پیشرفت در این تحقیق این است که آنها با موفقیت از پیش‌بینی آشکارساز OpenAI GPT-2 در مورد اینکه آیا چیزی توسط ماشین تولید می‌شود یا نه به عنوان امتیازی برای کیفیت زبان استفاده کردند.

آنها می نویسند:

«…اسناد با نمره P (ماشین نویسی) بالا معمولاً کیفیت زبان پایینی دارند.

… بنابراین تشخیص نویسندگی ماشین می تواند یک پروکسی قدرتمند برای ارزیابی کیفیت باشد.

نیازی به نمونه‌های برچسب‌گذاری‌شده ندارد – فقط مجموعه‌ای از متن برای آموزش به شیوه‌ای خودتبعیض‌آمیز.

این امر به ویژه در کاربردهایی که داده های برچسب گذاری شده کمیاب هستند یا در جایی که توزیع برای نمونه برداری بسیار پیچیده است، ارزشمند است.

به عنوان مثال، ایجاد یک مجموعه داده برچسب‌دار که نماینده همه اشکال محتوای وب با کیفیت پایین است، چالش برانگیز است.»

این بدان معناست که این سیستم برای تشخیص انواع خاصی از محتوای با کیفیت پایین آموزش لازم را ندارد.

یاد می گیرد که تمام تغییرات با کیفیت پایین را به تنهایی پیدا کند.

این یک رویکرد قدرتمند برای شناسایی صفحاتی است که کیفیت بالایی ندارند.

به‌روزرسانی محتوای مفید آینه نتایج

آنها این سیستم را روی نیم میلیارد صفحه وب آزمایش کردند و صفحات را با استفاده از ویژگی های مختلف مانند طول سند، سن محتوا و موضوع تجزیه و تحلیل کردند.

سن محتوا برای علامت گذاری محتوای جدید به عنوان کیفیت پایین نیست.

آنها به سادگی محتوای وب را بر اساس زمان تجزیه و تحلیل کردند و متوجه شدند که در سال 2019، همزمان با محبوبیت روزافزون استفاده از محتوای تولید شده توسط ماشین، جهش عظیمی در صفحات با کیفیت پایین صورت گرفته است.

تجزیه و تحلیل بر اساس موضوع نشان داد که حوزه‌های موضوعی خاصی مانند موضوعات حقوقی و دولتی صفحات با کیفیت بالاتری دارند.

جالب اینجاست که آنها تعداد زیادی صفحه با کیفیت پایین را در فضای آموزشی کشف کردند که به گفته آنها با سایت هایی که به دانش آموزان مقاله ارائه می دادند مطابقت دارد.

چیزی که این موضوع را جالب می کند این است که آموزش موضوعی است که به طور خاص توسط Google ذکر شده است تا تحت تأثیر به روز رسانی محتوای مفید قرار گیرد.
پست وبلاگ گوگل که توسط دنی سالیوان نوشته شده است به اشتراک می گذارد:

“…تست ما نشان داده است که به ویژه نتایج مربوط به آموزش آنلاین را بهبود می بخشد…”

سه امتیاز کیفیت زبان

دستورالعمل ارزیابی کیفیت گوگل (PDF) از چهار امتیاز کیفیت پایین، متوسط، بالا و بسیار بالا استفاده می کند.

محققان از سه نمره کیفیت برای آزمایش سیستم جدید، به علاوه یک امتیاز دیگر که نامش تعریف نشده بود، استفاده کردند.

اسنادی که به‌عنوان تعریف‌نشده رتبه‌بندی شدند، اسنادی بودند که به هر دلیلی قابل ارزیابی نبودند و حذف شدند.

نمرات 0، 1 و 2 رتبه بندی می شوند که دو نمره بالاترین امتیاز را دارند.

اینها توضیحات نمرات کیفیت زبان (LQ) هستند:

0: LQ کم.
متن نامفهوم یا از نظر منطقی ناسازگار است.

1: LQ متوسط.
متن قابل درک است اما ضعیف نوشته شده است (اشتباهات دستوری / نحوی مکرر).

2: LQ بالا.
متن قابل فهم و به خوبی نوشته شده است (خطاهای دستوری / نحوی نادر).

در اینجا دستورالعمل های ارزیابی کیفیت تعاریف کیفیت پایین آمده است:

پایین ترین کیفیت:

«MC بدون تلاش کافی، اصالت، استعداد یا مهارت لازم برای رسیدن به هدف صفحه به روشی رضایت‌بخش ایجاد می‌شود.

… توجه کمی به جنبه های مهم مانند وضوح یا سازماندهی.

…برخی از محتوای با کیفیت پایین با تلاش کمی ایجاد می شود تا محتوایی برای پشتیبانی داشته باشد
کسب درآمد به جای ایجاد محتوای اصلی یا پر زحمت برای کمک به کاربران.

ممکن است محتوای Filler” نیز اضافه شود، به خصوص در بالای صفحه، که کاربران را مجبور می کند برای رسیدن به MC به پایین اسکرول کنند.

…نوشتن این مقاله غیرحرفه ای است، از جمله بسیاری از اشتباهات گرامری و نقطه گذاری.

دستورالعمل های ارزیابی کننده کیفیت توضیحات دقیق تری از کیفیت پایین نسبت به الگوریتم دارند.

نکته جالب این است که چگونه الگوریتم بر خطاهای دستوری و نحوی متکی است.

نحو اشاره ای به ترتیب کلمات است.

کلمات با ترتیب اشتباه نادرست به نظر می رسند، شبیه به صحبت های شخصیت یودا در جنگ ستارگان (“دیدن آینده غیرممکن است”).

آیا الگوریتم محتوای مفید به سیگنال‌های دستوری و نحوی متکی است؟ اگر این الگوریتم است، شاید آن نقشی داشته باشد (اما نه تنها نقش).

اما من می‌خواهم فکر کنم که الگوریتم با برخی از آنچه در دستورالعمل‌های ارزیابی کیفیت بین انتشار تحقیق در سال 2021 و انتشار سیگنال محتوای مفید در سال 2022 وجود دارد، بهبود یافته است.

الگوریتم “قدرتمند” است

اگر الگوریتم به اندازه کافی برای استفاده در نتایج جستجو خوب است، مطالعه نتیجه‌گیری برای دریافت ایده، تمرین خوبی است.

بسیاری از مقالات تحقیقاتی با این جمله خاتمه می‌یابند که تحقیقات بیشتری باید انجام شود یا به این نتیجه می‌رسند که پیشرفت‌ها حاشیه‌ای هستند.

جالب ترین مقالات آنهایی هستند که مدعی نتایج جدید هستند.

محققان خاطرنشان می کنند که این الگوریتم قدرتمند است و از خطوط پایه بهتر عمل می کند.

چیزی که این را به یک نامزد خوب برای سیگنال نوع محتوای مفید تبدیل می کند این است که یک الگوریتم کم منبع است که در مقیاس وب است.

در نتیجه آنها نتایج مثبت را مجدداً تأیید می کنند:

این مقاله نشان می‌دهد که آشکارسازهایی که برای تمایز دادن متن‌های نوشته‌شده توسط انسان و ماشین‌آمیز آموزش دیده‌اند، پیش‌بینی‌کننده‌های مؤثری برای کیفیت زبان صفحات وب هستند و از طبقه‌بندی‌کننده هرزنامه‌های نظارت‌شده پایه عملکرد بهتری دارند.»

نتیجه گیری مقاله پژوهشی در مورد پیشرفت مثبت بود و ابراز امیدواری کرد که این تحقیق مورد استفاده دیگران قرار گیرد.

هیچ اشاره ای به تحقیق بیشتر لازم نیست.

این مقاله تحقیقاتی پیشرفتی را در تشخیص صفحات وب با کیفیت پایین توصیف می کند.

نتیجه گیری نشان می دهد که به نظر من یک وجود دارد احتمال که می تواند آن را به الگوریتم گوگل تبدیل کند.

از آنجایی که این الگوریتم به عنوان یک الگوریتم «در مقیاس وب» توصیف می‌شود که می‌تواند در «تنظیمات کم منابع» مستقر شود، به این معنی است که این الگوریتمی است که می‌تواند به طور مداوم فعال شود و اجرا شود، درست مانند سیگنال محتوای مفید. انجام دادن.

ما نمی دانیم که آیا این مربوط به به روز رسانی محتوای مفید است یا خیر، اما مطمئناً یک پیشرفت در علم تشخیص محتوای با کیفیت پایین است.

استناد

صفحه تحقیق گوگل:

مدل‌های تولیدی پیش‌بینی‌کننده‌های بدون نظارت کیفیت صفحه هستند: یک مطالعه در مقیاس عظیم

مقاله تحقیق گوگل را دانلود کنید

مدل‌های تولیدی پیش‌بینی‌کننده‌های بدون نظارت کیفیت صفحه هستند: یک مطالعه در مقیاس عظیم (PDF)

تصویر برجسته توسط Shutterstock/Asier Romero

سئو PBN | خبر های جدید سئو و هک و سرور