جمعه 3 ژوئن 2022
این هفته، یک بهبود الگوریتمی را معرفی کردیم که اسنادی را که در آن عنصر عنوان به زبان یا خطی متفاوت از محتوای آن نوشته شده است، شناسایی میکند و عنوانی را که شبیه به زبان و خط سند است انتخاب میکند. این بر اساس این اصل کلی است که عنوان یک سند باید با زبان یا خط محتوای اصلی آن نوشته شود. این یکی از دلایلی است که ممکن است از عناصر عنوان برای عناوین نتایج وب فراتر برویم.
عناوین چند زبانه
عناوین چند زبانه همان عبارت را با دو زبان یا خط متفاوت تکرار می کنند. محبوب ترین الگو این است که یک نسخه انگلیسی را به متن عنوان اصلی اضافه کنید.
بیوگرافی گیتنجالی – بیوگرافی گیتنجالی به زبان هندی
در این مثال، عنوان از دو قسمت تشکیل شده است (که با خط فاصله تقسیم می شوند) و مطالب مشابهی را به زبان های مختلف (هندی و انگلیسی) بیان می کنند. در حالی که عنوان به هر دو زبان است، خود سند فقط به زبان هندی نوشته شده است. سیستم ما چنین ناسازگاری را تشخیص میدهد و ممکن است فقط از متن سرفصل هندی استفاده کند، مانند:
بیوگرافی گیتجلی
عناوین خط لاتین
نویسهگردانی زمانی است که محتوا از یک زبان به زبان دیگری نوشته میشود که از خط یا الفبای متفاوتی استفاده میکند. برای مثال، عنوان صفحهای را برای آهنگی که به زبان هندی نوشته شده است، اما برای استفاده از حروف لاتین بهجای خط بومی هندی دوانگاری، نویسهگردانی شده است، در نظر بگیرید:
جیس دش من هولی کلی جاتی های
در چنین حالتی، سیستم ما سعی میکند با استفاده از اسکریپت غالب در صفحه، عنوان جایگزینی پیدا کند که در این مورد میتواند به صورت زیر باشد:
کشوری که هولی در آن اجرا می شود
خلاصه
به طور کلی، سیستم های ما تمایل دارند از عنصر عنوان صفحه استفاده کنند. در مواردی که عناوین چند زبانه یا نویسهگردانی شدهاند، سیستمهای ما ممکن است به دنبال جایگزینهایی باشند که با زبان غالب صفحه مطابقت داشته باشند. به همین دلیل است که ارائه عنوانی که با زبان و/یا اسکریپت محتوای اصلی صفحه مطابقت داشته باشد، تمرین خوبی است.
ما از بازخورد بیشتر در انجمن خود، از جمله موضوعات موجود در مورد این موضوع به زبان انگلیسی و ژاپنی استقبال می کنیم.