جدول پیوندها
-
چکیده و مقدمه
-
دامنه و وظیفه
2.1. منابع داده و پیچیدگی
2.2. تعریف وظیفه
-
کار مرتبط
3.1. بررسی اجمالی تحقیق متن کاوی و NLP
3.2. متن کاوی و NLP در استفاده در صنعت
3.3. متن کاوی و NLP برای تهیه
3.4. نتیجه گیری از بررسی ادبیات
-
روش پیشنهادی
4.1. دانش دامنه
4.2. استخراج محتوا
4.3. منطقه بندی لات
4.4. تشخیص آیتم لات
4.5. تجزیه فراوان
4.6. تجزیه XML، پیوستن به داده ها، و توسعه شاخص های ریسک
-
آزمایش و نمایش
5.1. ارزیابی مولفه
5.2. نمایش سیستم
-
بحث
6.1. تمرکز “صنعت” پروژه
6.2. ناهمگونی داده ها، ماهیت چند زبانه و چند وظیفه ای
6.3. معضل انتخاب های الگوریتمی
6.4. هزینه داده های آموزشی
-
نتیجه گیری، قدردانی و مراجع
در این کامپوننت، هدف ما تبدیل فرمتهای فایل دادههای ناهمگن (Word، Excel، PDF، و غیره) به فرمت JSON جهانی و قابل دسترس برای ماشین است که ما به آن VUD میگوییم. برای هر فایل، بسته به فرمت آن، از APIهای مربوطه استفاده می کنیم (مثلاً Apache Tika برای فایل های Word و Excel، Apache Tesseract و PDFPlumber برای PDF). با این حال، همه APIها یا فایلهای داده از استخراج ویژگیهای قالببندی (مثلاً اندازه قلم، رنگ، سطح سرصفحه) پشتیبانی نمیکنند، به خصوص اگر سندی…