اعمال نظارت طبیعی: پیوست ب – ضمیمه فصل 6

ضمیمه ب – ضمیمه فصل 6

B.1 جزئیات در مورد ساخت مجموعه داده برای WIKITABLE

هنگام جمع‌آوری داده‌ها، ما پنج منبع را در نظر می‌گیریم: جداول ویکی‌داده، جعبه‌های اطلاعات در صفحات ویکی‌پدیا، پیوندهای موجود در متن، موجودیت‌های نام‌گذاری شده در متن به‌دست‌آمده از شناسایی موجودیت نام‌گذاری شده (NER)، و ساختار مقاله ویکی‌پدیا. برای هر مقاله در ویکی‌پدیا، ما از جعبه اطلاعات و جدول ویکی‌داده یکسان برای همه بخش‌ها استفاده می‌کنیم. این جداول می توانند به عنوان دانش پس زمینه مقاله عمل کنند. برای هر بخش در مقاله، ما یک جدول دوم مربوط به داده های مربوط به بخش، یعنی داده های بخش ایجاد می کنیم. داده‌های بخش حاوی رکوردهایی است که از لینک‌ها و موجودیت‌های شناسایی‌شده توسط یک شناسایی‌کننده موجودیت نام‌گذاری شده ساخته شده‌اند. داده‌های بخش حدود 25 درصد از رکوردهای ویکی‌بلت را تشکیل می‌دهند.

ما چندین نوع موجودیت مرتبط با اعداد را فیلتر می کنیم[1] زیرا بازیابی معانی خاص این اعداد در بخش مورد نظر از اطلاعات جداول دشوار است. پس از فیلتر کردن، از موجودیت های شناسایی شده به عنوان مقادیر و انواع موجودیت ها به عنوان ویژگی ها استفاده می کنیم. این تقریباً 12٪ از رکوردهای مجموعه داده نهایی ما را شامل می شود.

ما همچنین رکوردهایی را از لینک های موجود در بخش مورد علاقه ایجاد می کنیم. ما ابتدا پیوندهای موجود برای هر بخش را با پیوندهای …

Source link