نویسندگان:
(1) Thuat Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.
(2) Chien Van Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.
(3) Viet Dac Lai، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.
(4) Hieu Man، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.
(5) Nghia Trung Ngo، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده;
(6) فرانک درنوکورت، Adobe Research، ایالات متحده؛
(7) Ryan A. Rossi, Adobe Research, USA;
(8) Thien Huu Nguyen، بخش علوم کامپیوتر، دانشگاه اورگان، OR، ایالات متحده آمریکا.
پس از تکمیل تمام مراحل پاکسازی و حذف مجدد، مجموعه داده نهایی ما شامل 6.3 تریلیون توکن است که 167 زبان را در بر می گیرد. جدول 1 نمای کلی از تعداد اسناد و نشانه ها را برای 42 زبان برتر در CulturaX پس از هر مرحله پردازش ارائه می دهد. همانطور که مشاهده می شود، خط لوله پاکسازی داده ما می تواند تعداد اسناد موجود در مجموعه داده های اصلی mC4 و OSCAR را برای هر زبان به میزان قابل توجهی کاهش دهد. تعداد کل اسناد حذف شده 46.48٪ از اسناد اولیه ما را تشکیل می دهد، که نشان دهنده اثربخشی رویکردهای ما برای فیلتر کردن اطلاعات پر سر و صدا برای مجموعه داده های چند زبانه است.