جدول پیوندها
-
چکیده و مقدمه
-
دامنه و وظیفه
2.1. منابع داده و پیچیدگی
2.2. تعریف وظیفه
-
کار مرتبط
3.1. بررسی اجمالی تحقیق متن کاوی و NLP
3.2. متن کاوی و NLP در استفاده در صنعت
3.3. متن کاوی و NLP برای تهیه
3.4. نتیجه گیری از بررسی ادبیات
-
روش پیشنهادی
4.1. دانش دامنه
4.2. استخراج محتوا
4.3. منطقه بندی لات
4.4. تشخیص آیتم لات
4.5. تجزیه فراوان
4.6. تجزیه XML، پیوستن به داده ها، و توسعه شاخص های ریسک
-
آزمایش و نمایش
5.1. ارزیابی مولفه
5.2. نمایش سیستم
-
بحث
6.1. تمرکز “صنعت” پروژه
6.2. ناهمگونی داده ها، ماهیت چند زبانه و چند وظیفه ای
6.3. معضل انتخاب های الگوریتمی
6.4. هزینه داده های آموزشی
-
نتیجه گیری، قدردانی و مراجع
4.4. تشخیص آیتم لات
با شناسایی صفحات و جداول مربوطه، گام بعدی ما در این فرآیند، شناسایی عناصر متنی در صفحات/جدول است که در واقع موارد و موارد را توصیف میکنند. ما میخواهیم دو نوع اطلاعات را به دست آوریم: متنهایی که ارجاع زیادی را نشان میدهند و متنهایی که موارد فردی را به مقدار زیادی توصیف میکنند. در عمل، این اغلب در یک متن متنی منسجم وجود دارد، مانند آنچه در شکل 5 نشان داده شده است.