CulturaX: مجموعه داده با کیفیت بالا و چند زبانه برای LLM – کارهای مرتبط

نویسندگان:

(1) Thuat Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.

(2) Chien Van Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.

(3) Viet Dac Lai، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.

(4) Hieu Man، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.

(5) Nghia Trung Ngo، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده;

(6) فرانک درنوکورت، Adobe Research، ایالات متحده؛

(7) Ryan A. Rossi, Adobe Research, USA;

(8) Thien Huu Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.

چکیده و مقدمه

ایجاد مجموعه داده چند زبانه

تجزیه و تحلیل داده ها و آزمایش ها

کار مرتبط

نتیجه گیری و مراجع

در مقایسه با سایر وظایف NLP، مدل‌های زبانی را می‌توان با داده‌های بدون برچسب آموزش داد، که امکان جمع‌آوری کارآمد داده‌ها برای تولید مقیاس‌های غول‌پیکر را فراهم می‌کند.

جدول 1: آمار داده ها برای 42 زبان با درصد نشانه های بیشتر از 0.05٪ در مجموعه داده ما. ستون های گروه بندی شده با برچسب جدول 1: آمار داده ها برای 42 زبان با درصد نشانه های بیشتر از 0.05٪ در مجموعه داده ما. ستون های گروه بندی شده با برچسب

داده های آموزشی دو نوع داده اصلی وجود دارد که معمولاً برای آموزش LLM ها استفاده می شود: داده های انتخاب شده و داده های خزیدن وب. داده‌های انتخاب‌شده معمولاً شامل متن‌هایی است که به خوبی نوشته شده و قالب‌بندی شده‌اند از منابع و حوزه‌های هدفمند، به‌عنوان مثال، مقالات ویکی‌پدیا، کتاب‌ها، مقالات شبکه خبری، و مقالات علمی، همانطور که برای «The Pile» استفاده می‌شود (Gao et al., 2020) و مجموعه داده های “BookCorpus” (ژو و همکاران، 2015). در مقابل، داده های خزیدن وب شامل متن جمع آوری شده است…

Source link