هزینه بالای داده های آموزشی در پروژه های NLP

  1. چکیده و مقدمه

  2. دامنه و وظیفه

    2.1. منابع داده و پیچیدگی

    2.2. تعریف وظیفه

  3. کار مرتبط

    3.1. بررسی اجمالی تحقیق متن کاوی و NLP

    3.2. متن کاوی و NLP در استفاده در صنعت

    3.3. متن کاوی و NLP برای تهیه

    3.4. نتیجه گیری از بررسی ادبیات

  4. روش پیشنهادی

    4.1. دانش دامنه

    4.2. استخراج محتوا

    4.3. منطقه بندی لات

    4.4. تشخیص آیتم لات

    4.5. تجزیه زیادی

    4.6. تجزیه XML، پیوستن به داده ها، و توسعه شاخص های ریسک

  5. آزمایش و نمایش

    5.1. ارزیابی مولفه

    5.2. نمایش سیستم

  6. بحث

    6.1. تمرکز “صنعت” پروژه

    6.2. ناهمگونی داده ها، ماهیت چند زبانه و چند وظیفه ای

    6.3. معضل انتخاب های الگوریتمی

    6.4. هزینه داده های آموزشی

  7. نتیجه گیری، قدردانی و مراجع

6.4. هزینه داده های آموزشی

در پروژه، ما از ترکیبی از روش های نظارت شده و بدون نظارت (قوانین) استفاده کردیم. دلایل عملی زیادی برای این انتخاب وجود دارد، اما برخلاف ادبیات علمی که عمدتاً مبتنی بر روش‌های یادگیری ماشینی نظارت شده است (سوگانتان و همکاران، 2015)، دلایل اصلی انتخاب نکردن رویکرد کاملاً نظارت شده، هزینه است. این را می توان از عوامل بسیاری مانند نیروی کار انسانی، زمان مورد نیاز، تعداد (و پیچیدگی) … توضیح داد.

Source link