چگونه Google عناوین اسناد را با ناهمترازی زبان یا خط تولید می کند | وبلاگ مرکزی جستجوی گوگل | توسعه دهندگان گوگل

جمعه 3 ژوئن 2022

این هفته، یک بهبود الگوریتمی را معرفی کردیم که اسنادی را که در آن عنصر عنوان به زبان یا خطی متفاوت از محتوای آن نوشته شده است، شناسایی می‌کند و عنوانی را که شبیه به زبان و خط سند است انتخاب می‌کند. این بر اساس این اصل کلی است که عنوان یک سند باید با زبان یا خط محتوای اصلی آن نوشته شود. این یکی از دلایلی است که ممکن است از عناصر عنوان برای عناوین نتایج وب فراتر برویم.

عناوین چند زبانه

عناوین چند زبانه همان عبارت را با دو زبان یا خط متفاوت تکرار می کنند. محبوب ترین الگو این است که یک نسخه انگلیسی را به متن عنوان اصلی اضافه کنید.

بیوگرافی گیتنجالی – بیوگرافی گیتنجالی به زبان هندی

در این مثال، عنوان از دو قسمت تشکیل شده است (که با خط فاصله تقسیم می شوند) و مطالب مشابهی را به زبان های مختلف (هندی و انگلیسی) بیان می کنند. در حالی که عنوان به هر دو زبان است، خود سند فقط به زبان هندی نوشته شده است. سیستم ما چنین ناسازگاری را تشخیص می‌دهد و ممکن است فقط از متن سرفصل هندی استفاده کند، مانند:

بیوگرافی گیتجلی

عناوین خط لاتین

نویسه‌گردانی زمانی است که محتوا از یک زبان به زبان دیگری نوشته می‌شود که از خط یا الفبای متفاوتی استفاده می‌کند. برای مثال، عنوان صفحه‌ای را برای آهنگی که به زبان هندی نوشته شده است، اما برای استفاده از حروف لاتین به‌جای خط بومی هندی دوانگاری، نویسه‌گردانی شده است، در نظر بگیرید:

جیس دش من هولی کلی جاتی های

در چنین حالتی، سیستم ما سعی می‌کند با استفاده از اسکریپت غالب در صفحه، عنوان جایگزینی پیدا کند که در این مورد می‌تواند به صورت زیر باشد:

کشوری که هولی در آن اجرا می شود

خلاصه

به طور کلی، سیستم های ما تمایل دارند از عنصر عنوان صفحه استفاده کنند. در مواردی که عناوین چند زبانه یا نویسه‌گردانی شده‌اند، سیستم‌های ما ممکن است به دنبال جایگزین‌هایی باشند که با زبان غالب صفحه مطابقت داشته باشند. به همین دلیل است که ارائه عنوانی که با زبان و/یا اسکریپت محتوای اصلی صفحه مطابقت داشته باشد، تمرین خوبی است.

ما از بازخورد بیشتر در انجمن خود، از جمله موضوعات موجود در مورد این موضوع به زبان انگلیسی و ژاپنی استقبال می کنیم.