CulturaX: مجموعه داده با کیفیت بالا و چند زبانه برای LLM – نتیجه گیری و مراجع

نویسندگان:

(1) Thuat Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.

(2) Chien Van Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.

(3) Viet Dac Lai، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.

(4) Hieu Man، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.

(5) Nghia Trung Ngo، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده;

(6) فرانک درنوکورت، Adobe Research، ایالات متحده؛

(7) Ryan A. Rossi, Adobe Research, USA;

(8) Thien Huu Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.

چکیده و مقدمه

ایجاد مجموعه داده چند زبانه

تجزیه و تحلیل داده ها و آزمایش ها

کار مرتبط

نتیجه گیری و مراجع

5 نتیجه گیری

ما CulturaX را ارائه می‌کنیم، مجموعه‌ای چندزبانه جدید با داده‌های متنی برای 167 زبان. مجموعه داده ما از طریق یک خط لوله جامع پاکسازی و حذف می شود و 6.3 تریلیون توکن تولید می کند. بنابراین CulturaX یک مجموعه داده با مقیاس بزرگ و با کیفیت است که می تواند به راحتی برای آموزش LLM های با کارایی بالا برای چندین زبان استفاده شود. داده‌های ما برای ترویج تحقیقات بیشتر و کاربردهای یادگیری چندزبانه آشکارا در دسترس عموم است.

مراجع

جولین آباجی، پدرو اورتیز سوارز، لوران روماری و بنویت ساگوت. 2022. به سوی یک مجموعه خزنده چندزبانه مستندگرای تمیزتر. در…

Source link