پیشرفت در درک اسناد – وبلاگ تحقیقاتی گوگل

در چند سال گذشته پیشرفت سریعی در سیستم هایی مشاهده شده است که می توانند به طور خودکار اسناد پیچیده تجاری را پردازش کرده و آنها را به اشیاء ساختاریافته تبدیل کنند. سیستمی که می‌تواند به طور خودکار داده‌ها را از اسناد استخراج کند، به عنوان مثال، رسیدها، مظنه بیمه و صورت‌های مالی، این پتانسیل را دارد که با اجتناب از کار دستی مستعد خطا، کارایی جریان‌های کاری را به‌طور چشمگیری بهبود بخشد. مدل های اخیر، بر اساس معماری ترانسفورماتور، دستاوردهای چشمگیری در دقت نشان داده اند. مدل‌های بزرگ‌تر مانند PalM 2 نیز برای ساده‌سازی بیشتر این جریان‌های کاری مورد استفاده قرار می‌گیرند. با این حال، مجموعه داده‌های مورد استفاده در ادبیات دانشگاهی نمی‌توانند چالش‌هایی را که در موارد استفاده در دنیای واقعی مشاهده می‌شود، به تصویر بکشند. در نتیجه، معیارهای آکادمیک دقت مدل قوی را گزارش می‌کنند، اما همین مدل‌ها وقتی برای برنامه‌های پیچیده دنیای واقعی استفاده می‌شوند ضعیف عمل می‌کنند.

در «VRDU: معیاری برای درک سند غنی از بصری»، ارائه شده در KDD 2023، انتشار مجموعه داده جدید درک سند غنی بصری (VRDU) را اعلام می کنیم که هدف آن پر کردن این شکاف و کمک به محققان برای ردیابی بهتر پیشرفت در وظایف درک سند است. . ما بر اساس انواع اسناد دنیای واقعی که اغلب از مدل‌های درک سند برای آنها استفاده می‌شود، پنج الزام برای یک معیار درک خوب سند را فهرست می‌کنیم. سپس، توضیح می‌دهیم که چگونه اکثر مجموعه داده‌هایی که در حال حاضر توسط جامعه تحقیقاتی استفاده می‌شوند، یک یا چند مورد از این الزامات را برآورده نمی‌کنند، در حالی که VRDU همه آنها را برآورده می‌کند. ما مشتاقیم که انتشار عمومی مجموعه داده VRDU و کد ارزیابی را تحت مجوز Creative Commons اعلام کنیم.

الزامات معیار

ابتدا، دقت مدل پیشرفته (مثلاً با FormNet و LayoutLMv2) را در موارد استفاده در دنیای واقعی با معیارهای آکادمیک (مانند FUNSD، CORD، SROIE) مقایسه کردیم. ما مشاهده کردیم که مدل‌های پیشرفته با نتایج معیار آکادمیک مطابقت ندارند و دقت بسیار پایین‌تری در دنیای واقعی ارائه می‌دهند. در مرحله بعد، مجموعه داده‌های معمولی را که مدل‌های درک سند برای آنها اغلب با معیارهای آکادمیک استفاده می‌شوند، مقایسه کردیم و پنج مورد نیاز مجموعه داده را شناسایی کردیم که به یک مجموعه داده اجازه می‌دهد تا پیچیدگی برنامه‌های کاربردی دنیای واقعی را بهتر به تصویر بکشد:

  • طرحواره غنی: در عمل، ما شاهد تنوع گسترده ای از طرحواره های غنی برای استخراج ساختاریافته هستیم. موجودیت ها انواع داده های مختلفی دارند (عددی، رشته ها، تاریخ ها، و غیره) که ممکن است مورد نیاز، اختیاری، یا تکرار در یک سند واحد باشند یا حتی ممکن است تو در تو باشند. وظایف استخراج بیش از طرحواره های مسطح ساده مانند (سرصفحه، سوال، پاسخ) منعکس کننده مشکلات معمولی نیستند که در عمل با آن مواجه می شوند.
  • اسناد غنی از چیدمان: اسناد باید دارای عناصر چیدمان پیچیده باشند. چالش‌ها در تنظیمات عملی از این واقعیت ناشی می‌شوند که اسناد ممکن است شامل جداول، جفت‌های کلید-مقدار، جابه‌جایی بین طرح‌بندی تک ستونی و دو ستونی، دارای اندازه فونت‌های مختلف برای بخش‌های مختلف، شامل تصاویر با شرح و حتی پاورقی باشد. این را با مجموعه‌های داده‌ای که بیشتر اسناد در جملات، پاراگراف‌ها و فصل‌ها با سرصفحه‌های بخش سازمان‌دهی می‌شوند مقایسه کنید – انواع اسنادی که معمولاً تمرکز ادبیات کلاسیک پردازش زبان طبیعی روی ورودی‌های طولانی هستند.
  • قالب های متنوع: یک معیار باید شامل طرح‌بندی‌ها یا قالب‌های ساختاری مختلف باشد. برای یک مدل با ظرفیت بالا، استخراج از یک الگوی خاص با به خاطر سپردن ساختار، امری بی اهمیت است. با این حال، در عمل، فرد باید بتواند به الگوها/طرح‌بندی‌های جدید تعمیم دهد، توانایی که تقسیم آزمون قطار در یک معیار باید آن را اندازه‌گیری کند.
  • OCR با کیفیت بالا: اسناد باید دارای نتایج تشخیص کاراکتر نوری (OCR) با کیفیت بالا باشند. هدف ما از این معیار تمرکز بر روی خود وظیفه VRDU و حذف تغییرپذیری ناشی از انتخاب موتور OCR است.
  • حاشیه نویسی در سطح نشانه: اسناد باید حاوی حاشیه‌نویسی‌های واقعی باشند که می‌توانند به متن ورودی مربوطه نگاشت شوند، به طوری که هر نشانه می‌تواند به عنوان بخشی از موجودیت مربوطه حاشیه‌نویسی شود. این در تضاد با ارائه متن مقداری است که باید برای موجودیت استخراج شود. این کلید برای تولید داده‌های تمرینی تمیز است که در آن نیازی نیست نگران تطابقات تصادفی با مقدار داده شده باشیم. به عنوان مثال، در برخی از رسیدها، فیلد «کل قبل از مالیات» ممکن است همان مقدار فیلد «کل» باشد اگر مقدار مالیات صفر باشد. داشتن حاشیه نویسی در سطح نشانه، ما را از تولید داده های آموزشی که در آن هر دو نمونه از مقدار تطبیق به عنوان حقیقت پایه برای فیلد “کل” علامت گذاری شده اند، جلوگیری می کند، بنابراین نمونه های پر سر و صدا تولید می شود.

مجموعه داده ها و وظایف VRDU

مجموعه داده VRDU ترکیبی از دو مجموعه داده عمومی در دسترس است، فرم های ثبت نام و فرم های آگهی خرید. این مجموعه داده‌ها نمونه‌هایی را ارائه می‌دهند که نشان‌دهنده موارد استفاده در دنیای واقعی هستند و پنج الزامات معیار توصیف شده در بالا را برآورده می‌کنند.

مجموعه داده Forms Ad-buy شامل 641 سند با جزئیات تبلیغات سیاسی است. هر سند یا یک فاکتور یا رسید است که توسط یک ایستگاه تلویزیونی و یک گروه کمپین امضا شده است. اسناد از جداول، چند ستون و جفت‌های کلید-مقدار برای ثبت اطلاعات آگهی مانند نام محصول، تاریخ پخش، قیمت کل و تاریخ و زمان انتشار استفاده می‌کنند.

مجموعه داده فرم های ثبت شامل 1915 سند با اطلاعاتی در مورد عوامل خارجی ثبت شده در دولت ایالات متحده است. هر سند اطلاعات ضروری در مورد عوامل خارجی درگیر در فعالیت هایی که نیاز به افشای عمومی دارند را ثبت می کند. محتویات شامل نام ثبت‌کننده، آدرس دفاتر مرتبط، هدف فعالیت‌ها و سایر جزئیات است.

ما نمونه‌ای تصادفی از اسناد را از سایت‌های کمیسیون عمومی ارتباطات فدرال (FCC) و قانون ثبت نمایندگان خارجی (FARA) جمع‌آوری کردیم و تصاویر را با استفاده از OCR Google Cloud به متن تبدیل کردیم. تعداد کمی از اسناد را که چندین صفحه بودند دور انداختیم و پردازش در کمتر از دو دقیقه کامل نشد. این همچنین به ما امکان داد از ارسال اسناد بسیار طولانی برای حاشیه نویسی دستی اجتناب کنیم – کاری که برای یک سند ممکن است بیش از یک ساعت طول بکشد. سپس، طرح و دستورالعمل‌های برچسب‌گذاری متناظر را برای تیمی از حاشیه‌نویسان با تجربه در وظایف برچسب‌گذاری سند تعریف کردیم.

به حاشیه نویسان نیز چند نمونه سند با برچسب ارائه شد که ما خودمان آنها را برچسب گذاری کردیم. این کار مستلزم آن بود که حاشیه نویس ها هر سند را بررسی کنند، یک کادر محدود در اطراف هر رخداد یک موجودیت از طرح هر سند ترسیم کنند، و آن کادر محدود کننده را با موجودیت هدف مرتبط کنند. پس از اولین دور برچسب‌گذاری، گروهی از کارشناسان برای بررسی نتایج تعیین شدند. نتایج تصحیح شده در مجموعه داده VRDU منتشر شده گنجانده شده است. لطفاً برای جزئیات بیشتر در مورد پروتکل برچسب‌گذاری و طرح هر مجموعه داده، مقاله را ببینید.

معیارهای آکادمیک موجود (FUNSD، CORD، SROIE، Kleister-NDA، Kleister-Charity، DeepForm) در یک یا چند مورد از پنج الزامی که ما برای یک معیار درک خوب سند شناسایی کرده‌ایم، کوتاهی می‌کنند. VRDU همه آنها را راضی می کند. مقاله ما را برای پیشینه هر یک از این مجموعه داده ها و بحث در مورد اینکه چگونه آنها یک یا چند مورد از الزامات را برآورده نمی کنند، ببینید.

ما چهار مجموعه آموزشی مدل مختلف به ترتیب با 10، 50، 100 و 200 نمونه ساختیم. سپس، مجموعه داده‌های VRDU را با استفاده از سه کار (که در زیر توضیح داده شده است) ارزیابی کردیم: (1) یادگیری الگوی واحد، (2) یادگیری الگوی ترکیبی، و (3) یادگیری الگوی دیده نشده. برای هر یک از این وظایف، ما 300 مدرک را در مجموعه تست قرار دادیم. ما مدل ها را با استفاده از امتیاز F1 در مجموعه تست ارزیابی می کنیم.

  • آموزش قالب تک (STL): این ساده‌ترین سناریویی است که در آن مجموعه‌های آموزش، آزمایش و اعتبارسنجی فقط شامل یک الگو هستند. این کار ساده برای ارزیابی توانایی یک مدل برای مقابله با یک الگوی ثابت طراحی شده است. به طور طبیعی، ما انتظار امتیازات بسیار بالایی در فرمول یک (0.90+) برای این کار داریم.
  • آموزش الگوهای ترکیبی (MTL): این کار شبیه کاری است که اکثر مقالات مرتبط از آن استفاده می کنند: مجموعه های آموزشی، آزمایشی و اعتبارسنجی همگی حاوی اسنادی هستند که به مجموعه ای از الگوها تعلق دارند. ما به‌طور تصادفی از مجموعه‌های داده اسناد را نمونه‌برداری می‌کنیم و تقسیم‌بندی‌ها را می‌سازیم تا مطمئن شویم توزیع هر الگو در طول نمونه‌گیری تغییر نکرده است.
  • آموزش الگوی دیده نشده (UTL): این چالش برانگیزترین تنظیمات است، که در آن ارزیابی می کنیم که آیا مدل می تواند به الگوهای دیده نشده تعمیم یابد یا خیر. برای مثال، در مجموعه داده‌های فرم‌های ثبت، مدل را با دو قالب از سه الگو آموزش می‌دهیم و مدل را با یکی دیگر آزمایش می‌کنیم. اسناد موجود در مجموعه‌های آموزش، آزمایش و اعتبارسنجی از مجموعه‌های متفاوتی از الگوها استخراج می‌شوند. طبق دانش ما، معیارها و مجموعه داده های قبلی به صراحت چنین وظیفه ای را برای ارزیابی توانایی مدل برای تعمیم به الگوهایی که در طول آموزش دیده نمی شوند، ارائه نمی دهند.

هدف این است که بتوانیم مدل ها را بر اساس کارایی داده ها ارزیابی کنیم. در مقاله خود، دو مدل اخیر را با استفاده از وظایف STL، MTL و UTL مقایسه کردیم و سه مشاهده انجام دادیم. اولا، برخلاف سایر معیارها، VRDU چالش برانگیز است و نشان می‌دهد که مدل‌ها فضای زیادی برای بهبود دارند. دوم، ما نشان می‌دهیم که عملکرد چند شات حتی برای مدل‌های پیشرفته به‌طور شگفت‌انگیزی پایین است و حتی بهترین مدل‌ها امتیاز کمتر از F1 0.60 دارند. سوم، ما نشان می‌دهیم که مدل‌ها برای مقابله با زمینه‌های تکراری ساختاریافته و عملکرد ضعیفی در آنها تلاش می‌کنند.

نتیجه

ما مجموعه داده جدید Visually Rich Document Understanding (VRDU) را منتشر می کنیم که به محققان کمک می کند پیشرفت را در وظایف درک سند بهتر پیگیری کنند. ما توضیح می دهیم که چرا VRDU چالش های عملی در این حوزه را بهتر منعکس می کند. ما همچنین آزمایش‌هایی را ارائه می‌کنیم که نشان می‌دهد وظایف VRDU چالش‌برانگیز هستند، و مدل‌های اخیر در مقایسه با مجموعه داده‌هایی که معمولاً در ادبیات استفاده می‌شوند با امتیازات F1 0.90+ فضای قابل توجهی برای بهبود دارند. ما امیدواریم انتشار مجموعه داده VRDU و کد ارزیابی به تیم‌های تحقیقاتی کمک کند تا در درک اسناد پیشرفت کنند.

سپاسگزاریها

با تشکر فراوان از Zilong Wang، Yichao Zhou، Wei Wei و Chen-Yu Lee که همراه با Sandeep Tata این مقاله را نوشتند. با تشکر از مارک ناجورک، ریهام منصور و شرکای متعدد در سرتاسر Google Research و تیم Cloud AI برای ارائه بینش ارزشمند. با تشکر از جان گیلیارد برای ساخت انیمیشن های این پست.

سئو PBN | خبر های جدید سئو و هک و سرور