محققان یاد می گیرند که مهارت های زبانی هوش مصنوعی را اندازه گیری کنند

نویسندگان:

(1) Martyna Wiącek، موسسه علوم کامپیوتر، آکادمی علوم لهستان.

(2) پیوتر ریباک، موسسه علوم کامپیوتر، آکادمی علوم لهستان.

(3) Łukasz Pszenny، موسسه علوم کامپیوتر، آکادمی علوم لهستان.

(4) Alina Wróblewska، موسسه علوم کامپیوتر، آکادمی علوم لهستان.

یادداشت ویرایشگر: این قسمت 7 از 10 مطالعه ای است که در مورد بهبود ارزیابی و مقایسه ابزارهای مورد استفاده در پیش پردازش زبان طبیعی انجام می شود. بقیه را در ادامه بخوانید.

چکیده و 1. مقدمه و آثار مرتبط

  1. بنچمارک NLPre

2.1. مفهوم تحقیق

2.2. سیستم بنچمارک آنلاین

2.3. پیکربندی

  1. معیار NLPre-PL

3.1. مجموعه داده ها

3.2. وظایف

  1. ارزیابی

4.1. روش شناسی ارزشیابی

4.2. سیستم های ارزیابی شده

4.3. نتایج

  1. نتیجه گیری
    • ضمیمه ها
    • قدردانی ها
    • مراجع کتابشناختی
    • مراجع منابع زبان

4. ارزیابی

4.1. روش شناسی ارزشیابی

برای حفظ استاندارد واقعی برای ارزیابی NLPre، ما اقدامات ارزیابی تعریف شده برای وظیفه مشترک CoNLL 2018 و پیاده‌سازی شده در اسکریپت ارزیابی رسمی را اعمال می‌کنیم.[11] به طور خاص، ما روی F1 و AlignedAccuracy، که مشابه F1 است اما ناهماهنگی های احتمالی در نشانه ها، کلمات یا جملات را در نظر نمی گیرد.

در فرآیند ارزیابی خود، از پیش فرض پیروی می کنیم…

Source link