وقتی صحبت از تشخیص متن و سند می شود، تشخیص مقاله روزنامه به درستی یکی از دشوارترین کارها در نظر گرفته می شود. فقدان استانداردسازی، ساختار تصادفی مقاله، و فراوانی سرصفحهها، زیر سرفصلها و تصاویر، استخراج دقیق مقاله را به چالش میکشد.
پس از کار بر روی چندین پروژه دیجیتال سازی روزنامه های غربی و آسیایی، با اطمینان می توانم بگویم که من و تیمم حداقل ده ها روش را برای استخراج مقالات روزنامه بررسی کرده ایم.
در این مقاله، من 3 روش برای استخراج روزنامه را بررسی می کنم: از ساده ترین و مقرون به صرفه ترین تا دقیق ترین. در اینجا ما می رویم.
رویکرد شماره 1: GPT-4o
ساده ترین (و کم هزینه ترین) رویکرد برای دیجیتالی کردن تقریباً هر سند، استفاده از GPT-4o برای تجزیه و تحلیل صفحات روزنامه است.
ابتدا باید مختصات مقاله را شناسایی کرده و متن را استخراج کنیم. راه های زیادی برای استخراج متن از یک صفحه وجود دارد، اما بخش مهم در اینجا استخراج متن و مختصات آن، یعنی موقعیت آن در صفحه است. این اطلاعات به انعکاس ساختار متن پس از استخراج با استفاده از زبانه ها و خطوط کمک می کند.
با استفاده از OCR و Azure Document Intelligence میتوانیم متن و مختصات آن را استخراج کنیم، پس از آن ساختار متن را بازیابی میکنیم و در نتیجه آن را به گونهای قالببندی میکنیم که صفحه را به بهترین شکل منعکس کند.