جدول پیوندها
-
چکیده و مقدمه
-
دامنه و وظیفه
2.1. منابع داده و پیچیدگی
2.2. تعریف وظیفه
-
کار مرتبط
3.1. بررسی اجمالی تحقیق متن کاوی و NLP
3.2. متن کاوی و NLP در استفاده در صنعت
3.3. متن کاوی و NLP برای تهیه
3.4. نتیجه گیری از بررسی ادبیات
-
روش پیشنهادی
4.1. دانش دامنه
4.2. استخراج محتوا
4.3. منطقه بندی لات
4.4. تشخیص آیتم لات
4.5. تجزیه فراوان
4.6. تجزیه XML، پیوستن به داده ها، و توسعه شاخص های ریسک
-
آزمایش و نمایش
5.1. ارزیابی مولفه
5.2. نمایش سیستم
-
بحث
6.1. تمرکز “صنعت” پروژه
6.2. ناهمگونی داده ها، ماهیت چند زبانه و چند وظیفه ای
6.3. معضل انتخاب های الگوریتمی
6.4. هزینه داده های آموزشی
-
نتیجه گیری، قدردانی و مراجع
5.2. نمایش سیستم
در این بخش، سیستم نهایی را برای نشان دادن «پروفایل ریسک تأمینکننده» در عمل ارائه میکنیم. ابتدا، با توجه به ارزیابی بالا، مدل با بهترین عملکرد – جنگل تصادفی – را با استفاده از تمام مجموعه دادههای برچسبگذاری شده برای هر جزء در خط لوله، دوباره آموزش دادیم. پس از آموزش مجدد همه مدل ها، گردش کار خود را بر روی کل مجموعه داده خام TED اعمال می کنیم. این شامل تقریباً 3.3 میلیون آگهی مناقصه مربوط به مراقبت های بهداشتی (با اعطای قرارداد) است که از سال 2011 تا 2022 را پوشش می دهد.