اعلام مجموعه داده تشابه عبارت پتنت

اسناد ثبت اختراع معمولاً از زبان قانونی و بسیار فنی با اصطلاحات وابسته به زمینه استفاده می کنند که ممکن است معانی کاملاً متفاوت از کاربرد محاوره ای و حتی بین اسناد مختلف داشته باشند. فرآیند استفاده از روش‌های سنتی جستجوی پتنت (مثلاً جستجوی کلمه کلیدی) برای جستجو در مجموعه بیش از صد میلیون سند ثبت اختراع می‌تواند خسته‌کننده باشد و به دلیل زبان گسترده و غیر استاندارد مورد استفاده، نتایج از دست رفته زیادی را به دنبال داشته باشد. به عنوان مثال، یک “توپ فوتبال” ممکن است به عنوان یک “دستگاه تفریحی کروی”، “توپ ورزشی بادی” یا “توپ برای بازی با توپ” توصیف شود. علاوه بر این، زبان مورد استفاده در برخی اسناد ثبت اختراع ممکن است اصطلاحات را به نفع آنها مبهم کند، بنابراین پردازش زبان طبیعی قدرتمندتر (NLP) و درک تشابه معنایی می تواند به همه امکان دسترسی به جستجوی کامل را بدهد.

دامنه ثبت اختراع (و ادبیات فنی عمومی تر مانند انتشارات علمی) به دلیل استفاده از اصطلاحات قانونی و فنی، چالش های منحصر به فردی را برای مدل سازی NLP ایجاد می کند. در حالی که مجموعه داده‌های معیار تشابه متنی معنایی (STS) متعددی وجود دارد (مانند STS-B، SICK، MRPC، PIT)، تا آنجا که ما می‌دانیم، در حال حاضر هیچ مجموعه داده متمرکز بر مفاهیم فنی در پتنت‌ها وجود ندارد. و انتشارات علمی (چالش تا حدودی مرتبط BioASQ شامل یک وظیفه پاسخگویی به سؤالات زیست پزشکی است). علاوه بر این، با رشد مداوم در اندازه مجموعه ثبت اختراع (سالانه میلیون ها پتنت جدید در سراسر جهان صادر می شود)، نیاز به توسعه مدل های مفیدتر NLP برای این حوزه وجود دارد.

امروز، انتشار مجموعه داده تشابه عبارت حق اختراع، یک مجموعه داده تطبیق معنایی عبارت به عبارت متنی با رتبه انسانی جدید، و مقاله همراه ارائه شده در کارگاه SIGIR PatentSemTech را اعلام می کنیم که بر اصطلاحات فنی از پتنت ها تمرکز دارد. مجموعه داده تشابه عبارت پتنت شامل 50000 جفت عبارت رتبه‌بندی شده است که هر کدام دارای یک کلاس طبقه‌بندی پتنت تعاونی (CPC) به عنوان زمینه هستند. علاوه بر نمرات شباهت که معمولاً در سایر مجموعه داده‌های معیار گنجانده می‌شود، ما کلاس‌های رتبه‌بندی دانه‌ای مشابه WordNet را نیز شامل می‌شود، مانند مترادف، متضاد، ابرنام، هیپونام، تند، مزون، و مرتبط با دامنه. این مجموعه داده (توزیع شده تحت مجوز Creative Commons Attribution 4.0 International) توسط Kaggle و USPTO به عنوان مجموعه داده معیار در مسابقه تطبیق عبارت با عبارت پتنت ایالات متحده برای جلب توجه بیشتر به عملکرد مدل های یادگیری ماشین در متن فنی استفاده شد. نتایج اولیه نشان می‌دهد که مدل‌هایی که بر روی این مجموعه داده جدید تنظیم شده‌اند، به طور قابل‌توجهی بهتر از مدل‌های از پیش آموزش‌دیده عمومی بدون تنظیم دقیق عمل می‌کنند.

مجموعه داده تشابه عبارت پتنت

برای آموزش بهتر نسل بعدی مدل‌های پیشرفته، مجموعه داده‌های تشابه عبارت حق اختراع را ایجاد کردیم که شامل مثال‌های زیادی برای رفع مشکلات زیر است: (1) ابهام‌زدایی عبارت، (2) تطبیق کلمات کلیدی متخاصم، و (3) ) کلمات کلیدی منفی سخت (یعنی کلمات کلیدی که به هم مرتبط نیستند اما امتیاز بالایی برای شباهت از مدل های دیگر دریافت کرده اند). برخی از کلمات کلیدی و عبارات می توانند معانی متعددی داشته باشند (به عنوان مثال، عبارت “موس” ممکن است به یک حیوان یا یک دستگاه ورودی رایانه اشاره داشته باشد)، بنابراین ما با گنجاندن کلاس های CPC با هر جفت عبارات، عبارات را ابهام می کنیم. همچنین، بسیاری از مدل‌های NLP (مثلاً مدل‌های کیسه‌ای از کلمات) با عباراتی که دارای کلمات کلیدی منطبق هستند، اما غیرمرتبط هستند، عملکرد خوبی ندارند (کلمات کلیدی متخاصم، به عنوان مثال، «بخش ظرف» → «ظرف آشپزخانه»، «جدول افست» → “پنکه رومیزی”). مجموعه داده تشابه عبارت Patent Similarity به گونه ای طراحی شده است که شامل نمونه های زیادی از کلمات کلیدی تطبیق است که از طریق تطبیق کلمات کلیدی متخاصم نامرتبط هستند، و به مدل های NLP امکان می دهد عملکرد خود را بهبود بخشند.

هر ورودی در مجموعه داده تشابه عبارت پتنت شامل دو عبارت است، یک لنگر و هدف، یک کلاس CPC زمینه، یک کلاس رتبه بندی، و یک امتیاز شباهت. مجموعه داده شامل 48548 ورودی با 973 لنگر منحصربه‌فرد است که به مجموعه‌های آموزشی (75%)، اعتبارسنجی (5%) و تست (20%) تقسیم شده‌اند. هنگام تقسیم داده ها، همه ورودی های دارای لنگر یکسان با هم در یک مجموعه نگهداری می شوند. 106 کلاس CPC زمینه مختلف وجود دارد و همه آنها در مجموعه آموزشی نشان داده شده اند.

لنگر هدف متن نوشته رتبه بندی نمره
جذب اسید جذب اسید B08 دقیق 1.0
جذب اسید غوطه وری در اسید B08 مترادف 0.75
جذب اسید مواد شیمیایی خیس شده B08 مربوط به دامنه 0.25
جذب اسید رفلکس اسید B08 بی ارتباط 0.0
ترکیب بنزین ترکیب بنزین Q10 مترادف 0.75
ترکیب بنزین ترکیب سوخت Q10 ابرنام 0.5
ترکیب بنزین مخلوط میوه Q10 بی ارتباط 0.0
مونتاژ شیر آب شیر آب A22 نام مستعار 0.5
مونتاژ شیر آب تامین آب A22 هولونیوم 0.25
مونتاژ شیر آب مجمع مدرسه A22 بی ارتباط 0.0
نمونه کوچکی از مجموعه داده با عبارات لنگر و هدف، کلاس CPC زمینه (B08: تمیز کردن، C10: نفت، گاز، سوخت، روان کننده‌ها، A22: قصابی، فرآوری گوشت/مرغ/ماهی)، کلاس رتبه‌بندی، و امتیاز شباهت .

تولید مجموعه داده

برای تولید داده‌های تشابه عبارت پتنت، ابتدا حدود 140 میلیون سند ثبت اختراع را در مجموعه ثبت اختراع Google پردازش می‌کنیم و به طور خودکار عبارات مهم انگلیسی را استخراج می‌کنیم که معمولاً عبارات اسمی هستند (به عنوان مثال، “بسته، “مجموعه بلند کردن”) و عبارات کاربردی ( به عنوان مثال، “فرآوری مواد غذایی”، “چاپ جوهر”). در مرحله بعد، عباراتی را که در حداقل 100 حق ثبت اختراع ظاهر می شوند، فیلتر و نگهداری می کنیم و به طور تصادفی از حدود 1000 مورد از این عبارات فیلتر شده، که ما آن را عبارات لنگر می نامیم، نمونه برداری می کنیم. برای هر عبارت لنگر، همه پتنت‌های منطبق و تمام کلاس‌های CPC برای آن پتنت‌ها را پیدا می‌کنیم. سپس به‌طور تصادفی تا چهار کلاس CPC منطبق را نمونه‌برداری می‌کنیم که به کلاس‌های CPC متنی برای عبارت لنگر خاص تبدیل می‌شوند.

ما از دو روش مختلف برای پیش تولید عبارات هدف استفاده می کنیم: (1) تطبیق جزئی و (2) یک مدل زبان ماسک شده (MLM). برای تطبیق جزئی، عباراتی را به‌طور تصادفی از کل مجموعه انتخاب می‌کنیم که تا حدی با عبارت لنگر مطابقت دارند (مانند «کاهش» → «کاهش نویز»، «تشکیل مواد» → «مواد شکل‌گیری»). برای MLM، جملاتی را از پتنت‌ها انتخاب می‌کنیم که حاوی یک عبارت لنگر معین هستند، آن‌ها را پنهان می‌کنیم و از مدل Patent-BERT برای پیش‌بینی نامزدها برای بخش پوشانده شده متن استفاده می‌کنیم. سپس، تمام عبارات، که شامل حروف کوچک و حذف علائم نگارشی و کلیدواژه‌های خاص (مانند «و»، «یا»، «گفته») است، پاک می‌شوند و برای بررسی به ارزیاب‌های خبره ارسال می‌شوند. هر جفت عبارت به طور مستقل توسط دو ارزیاب ماهر در حوزه فناوری رتبه بندی می شود. هر ارزیاب همچنین عبارات هدف جدیدی با رتبه بندی های مختلف تولید می کند. به طور خاص، از آنها خواسته می شود تا اهداف کم شباهت و نامرتبط را ایجاد کنند که تا حدی با لنگر اصلی و/یا برخی از اهداف با شباهت بالا مطابقت دارند. در نهایت، ارزیاب ها گرد هم می آیند تا در مورد رتبه بندی خود بحث کنند و به رتبه بندی نهایی برسند.

ارزیابی مجموعه داده ها

برای ارزیابی عملکرد آن، مجموعه داده تشابه عبارت ثبت اختراع در رقابت Kaggle تطبیق عبارت به عبارت پتنت ایالات متحده استفاده شد. این رقابت بسیار محبوب بود و حدود 2000 شرکت کننده از سراسر جهان را به خود جلب کرد. روش‌های مختلفی با موفقیت توسط تیم‌های امتیازآور برتر استفاده شد، از جمله مدل‌های گروهی از انواع BERT و تحریک (برای جزئیات بیشتر به بحث کامل مراجعه کنید). جدول زیر بهترین نتایج رقابت را نشان می‌دهد و همچنین چندین خط پایه را از مقاله ما نشان می‌دهد. متریک همبستگی پیرسون برای اندازه‌گیری همبستگی خطی بین نمرات پیش‌بینی‌شده و واقعی استفاده شد، که معیاری مفید برای هدف‌یابی مدل‌های پایین‌دستی است تا بتوانند بین رتبه‌بندی‌های شباهت مختلف تمایز قائل شوند.

خطوط مبنا در مقاله را می توان صفر شات در نظر گرفت به این معنا که آنها از مدل های خارج از قفسه بدون هیچ گونه تنظیم دقیق بیشتر در مجموعه داده جدید استفاده می کنند (ما از این مدل ها برای جاسازی عبارات لنگر و هدف به طور جداگانه و محاسبه کسینوس استفاده می کنیم. شباهت بین آنها). نتایج رقابت Kaggle نشان می دهد که با استفاده از داده های آموزشی ما، می توان به پیشرفت های قابل توجهی در مقایسه با مدل های NLP موجود دست یافت. ما همچنین عملکرد انسان در این کار را با مقایسه نمرات یک ارزیاب واحد با امتیاز ترکیبی هر دو ارزیاب تخمین زده‌ایم. نتایج نشان می‌دهد که این کار حتی برای متخصصان انسانی کار آسانی نیست.

مدل آموزش همبستگی پیرسون
word2vec ضربه صفر 0.44
حق ثبت اختراع-BERT ضربه صفر 0.53
جمله-BERT ضربه صفر 0.60
Kaggle مقام اول تک نفره به خوبی تنظیم شده است 0.87
گروه کاگل مقام اول به خوبی تنظیم شده است 0.88
انسان 0.93
عملکرد مدل‌های محبوب بدون تنظیم دقیق (صفر شات)، مدل‌هایی که بر روی مجموعه داده‌های مشابه عبارت پتنت به‌عنوان بخشی از رقابت Kaggle تنظیم شده‌اند، و عملکرد تک انسان.

نتیجه گیری و کار آینده

ما مجموعه داده تشابه عبارت حق اختراع را ارائه می کنیم که به عنوان مجموعه داده محک در مسابقه تطبیق عبارت پتنت ایالات متحده به عبارت مورد استفاده قرار گرفت، و نشان دادیم که با استفاده از داده های آموزشی ما، می توان به پیشرفت های قابل توجهی در مقایسه با مدل های NLP موجود دست یافت.

معیارهای چالش برانگیز یادگیری ماشین اضافی را می توان از مجموعه ثبت اختراع ایجاد کرد، و داده های ثبت اختراع راه خود را به بسیاری از مدل های امروزی که بیشتر مورد مطالعه قرار گرفته اند، باز کرده است. به عنوان مثال، مجموعه داده متنی C4 که برای آموزش T5 استفاده می شود حاوی اسناد ثبت اختراع بسیاری است. مدل های BigBird و LongT5 نیز از پتنت ها از طریق مجموعه داده BIGPATENT استفاده می کنند. در دسترس بودن، گستردگی و شرایط استفاده باز از داده های متن کامل (به مجموعه داده های عمومی ثبت اختراعات Google مراجعه کنید) اختراعات را به منبعی منحصر به فرد برای جامعه تحقیقاتی تبدیل می کند. احتمالات برای کارهای آینده شامل طبقه بندی انبوه چند برچسبی، خلاصه سازی، بازیابی اطلاعات، شباهت متن-تصویر، پیش بینی نمودار استنادی و ترجمه است. برای جزئیات بیشتر به مقاله مراجعه کنید.

سپاسگزاریها

این کار از طریق همکاری با Kaggle، Satsyil Corp.، USPTO و MaxVal امکان پذیر شد. با تشکر از همکاران Ian Wetherbee از Google، Will Cukierski و Maggie Demkin از Kaggle. از جری ما، اسکات بلیو و جیمی هولکامب از USPTO و سوجا چیتاماهلینگام از MaxVal برای مشارکت‌هایشان تشکر می‌کنیم.