نویسندگان:
(1) Thuat Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.
(2) Chien Van Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.
(3) Viet Dac Lai، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.
(4) Hieu Man، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.
(5) Nghia Trung Ngo، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده;
(6) فرانک درنوکورت، Adobe Research، ایالات متحده؛
(7) Ryan A. Rossi, Adobe Research, USA;
(8) Thien Huu Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.
جدول پیوندها
چکیده و مقدمه
ایجاد مجموعه داده چند زبانه
تجزیه و تحلیل داده ها و آزمایش ها
کار مرتبط
نتیجه گیری و مراجع
در مقایسه با سایر وظایف NLP، مدلهای زبانی را میتوان با دادههای بدون برچسب آموزش داد، که امکان جمعآوری کارآمد دادهها برای تولید مقیاسهای غولپیکر را فراهم میکند.
داده های آموزشی دو نوع داده اصلی وجود دارد که معمولاً برای آموزش LLM ها استفاده می شود: داده های انتخاب شده و داده های خزیدن وب. دادههای انتخابشده معمولاً شامل متنهایی است که به خوبی نوشته شده و قالببندی شدهاند از منابع و حوزههای هدفمند، بهعنوان مثال، مقالات ویکیپدیا، کتابها، مقالات شبکه خبری، و مقالات علمی، همانطور که برای «The Pile» استفاده میشود (Gao et al., 2020) و مجموعه داده های “BookCorpus” (ژو و همکاران، 2015). در مقابل، داده های خزیدن وب شامل متن جمع آوری شده است…