3 رویکرد به دیجیتالی کردن روزنامه ها و مجلات

وقتی صحبت از تشخیص متن و سند می شود، تشخیص مقاله روزنامه به درستی یکی از دشوارترین کارها در نظر گرفته می شود. فقدان استانداردسازی، ساختار تصادفی مقاله، و فراوانی سرصفحه‌ها، زیر سرفصل‌ها و تصاویر، استخراج دقیق مقاله را به چالش می‌کشد.

پس از کار بر روی چندین پروژه دیجیتال سازی روزنامه های غربی و آسیایی، با اطمینان می توانم بگویم که من و تیمم حداقل ده ها روش را برای استخراج مقالات روزنامه بررسی کرده ایم.

در این مقاله، من 3 روش برای استخراج روزنامه را بررسی می کنم: از ساده ترین و مقرون به صرفه ترین تا دقیق ترین. در اینجا ما می رویم.

رویکرد شماره 1: GPT-4o

ساده ترین (و کم هزینه ترین) رویکرد برای دیجیتالی کردن تقریباً هر سند، استفاده از GPT-4o برای تجزیه و تحلیل صفحات روزنامه است.

ابتدا باید مختصات مقاله را شناسایی کرده و متن را استخراج کنیم. راه های زیادی برای استخراج متن از یک صفحه وجود دارد، اما بخش مهم در اینجا استخراج متن و مختصات آن، یعنی موقعیت آن در صفحه است. این اطلاعات به انعکاس ساختار متن پس از استخراج با استفاده از زبانه ها و خطوط کمک می کند.

با استفاده از OCR و Azure Document Intelligence می‌توانیم متن و مختصات آن را استخراج کنیم، پس از آن ساختار متن را بازیابی می‌کنیم و در نتیجه آن را به گونه‌ای قالب‌بندی می‌کنیم که صفحه را به بهترین شکل منعکس کند.

Source link