اسناد ثبت اختراع معمولاً از زبان قانونی و بسیار فنی با اصطلاحات وابسته به زمینه استفاده می کنند که ممکن است معانی کاملاً متفاوت از کاربرد محاوره ای و حتی بین اسناد مختلف داشته باشند. فرآیند استفاده از روشهای سنتی جستجوی پتنت (مثلاً جستجوی کلمه کلیدی) برای جستجو در مجموعه بیش از صد میلیون سند ثبت اختراع میتواند خستهکننده باشد و به دلیل زبان گسترده و غیر استاندارد مورد استفاده، نتایج از دست رفته زیادی را به دنبال داشته باشد. به عنوان مثال، یک “توپ فوتبال” ممکن است به عنوان یک “دستگاه تفریحی کروی”، “توپ ورزشی بادی” یا “توپ برای بازی با توپ” توصیف شود. علاوه بر این، زبان مورد استفاده در برخی اسناد ثبت اختراع ممکن است اصطلاحات را به نفع آنها مبهم کند، بنابراین پردازش زبان طبیعی قدرتمندتر (NLP) و درک تشابه معنایی می تواند به همه امکان دسترسی به جستجوی کامل را بدهد.
دامنه ثبت اختراع (و ادبیات فنی عمومی تر مانند انتشارات علمی) به دلیل استفاده از اصطلاحات قانونی و فنی، چالش های منحصر به فردی را برای مدل سازی NLP ایجاد می کند. در حالی که مجموعه دادههای معیار تشابه متنی معنایی (STS) متعددی وجود دارد (مانند STS-B، SICK، MRPC، PIT)، تا آنجا که ما میدانیم، در حال حاضر هیچ مجموعه داده متمرکز بر مفاهیم فنی در پتنتها وجود ندارد. و انتشارات علمی (چالش تا حدودی مرتبط BioASQ شامل یک وظیفه پاسخگویی به سؤالات زیست پزشکی است). علاوه بر این، با رشد مداوم در اندازه مجموعه ثبت اختراع (سالانه میلیون ها پتنت جدید در سراسر جهان صادر می شود)، نیاز به توسعه مدل های مفیدتر NLP برای این حوزه وجود دارد.
امروز، انتشار مجموعه داده تشابه عبارت حق اختراع، یک مجموعه داده تطبیق معنایی عبارت به عبارت متنی با رتبه انسانی جدید، و مقاله همراه ارائه شده در کارگاه SIGIR PatentSemTech را اعلام می کنیم که بر اصطلاحات فنی از پتنت ها تمرکز دارد. مجموعه داده تشابه عبارت پتنت شامل 50000 جفت عبارت رتبهبندی شده است که هر کدام دارای یک کلاس طبقهبندی پتنت تعاونی (CPC) به عنوان زمینه هستند. علاوه بر نمرات شباهت که معمولاً در سایر مجموعه دادههای معیار گنجانده میشود، ما کلاسهای رتبهبندی دانهای مشابه WordNet را نیز شامل میشود، مانند مترادف، متضاد، ابرنام، هیپونام، تند، مزون، و مرتبط با دامنه. این مجموعه داده (توزیع شده تحت مجوز Creative Commons Attribution 4.0 International) توسط Kaggle و USPTO به عنوان مجموعه داده معیار در مسابقه تطبیق عبارت با عبارت پتنت ایالات متحده برای جلب توجه بیشتر به عملکرد مدل های یادگیری ماشین در متن فنی استفاده شد. نتایج اولیه نشان میدهد که مدلهایی که بر روی این مجموعه داده جدید تنظیم شدهاند، به طور قابلتوجهی بهتر از مدلهای از پیش آموزشدیده عمومی بدون تنظیم دقیق عمل میکنند.
مجموعه داده تشابه عبارت پتنت
برای آموزش بهتر نسل بعدی مدلهای پیشرفته، مجموعه دادههای تشابه عبارت حق اختراع را ایجاد کردیم که شامل مثالهای زیادی برای رفع مشکلات زیر است: (1) ابهامزدایی عبارت، (2) تطبیق کلمات کلیدی متخاصم، و (3) ) کلمات کلیدی منفی سخت (یعنی کلمات کلیدی که به هم مرتبط نیستند اما امتیاز بالایی برای شباهت از مدل های دیگر دریافت کرده اند). برخی از کلمات کلیدی و عبارات می توانند معانی متعددی داشته باشند (به عنوان مثال، عبارت “موس” ممکن است به یک حیوان یا یک دستگاه ورودی رایانه اشاره داشته باشد)، بنابراین ما با گنجاندن کلاس های CPC با هر جفت عبارات، عبارات را ابهام می کنیم. همچنین، بسیاری از مدلهای NLP (مثلاً مدلهای کیسهای از کلمات) با عباراتی که دارای کلمات کلیدی منطبق هستند، اما غیرمرتبط هستند، عملکرد خوبی ندارند (کلمات کلیدی متخاصم، به عنوان مثال، «بخش ظرف» → «ظرف آشپزخانه»، «جدول افست» → “پنکه رومیزی”). مجموعه داده تشابه عبارت Patent Similarity به گونه ای طراحی شده است که شامل نمونه های زیادی از کلمات کلیدی تطبیق است که از طریق تطبیق کلمات کلیدی متخاصم نامرتبط هستند، و به مدل های NLP امکان می دهد عملکرد خود را بهبود بخشند.
هر ورودی در مجموعه داده تشابه عبارت پتنت شامل دو عبارت است، یک لنگر و هدف، یک کلاس CPC زمینه، یک کلاس رتبه بندی، و یک امتیاز شباهت. مجموعه داده شامل 48548 ورودی با 973 لنگر منحصربهفرد است که به مجموعههای آموزشی (75%)، اعتبارسنجی (5%) و تست (20%) تقسیم شدهاند. هنگام تقسیم داده ها، همه ورودی های دارای لنگر یکسان با هم در یک مجموعه نگهداری می شوند. 106 کلاس CPC زمینه مختلف وجود دارد و همه آنها در مجموعه آموزشی نشان داده شده اند.
لنگر | هدف | متن نوشته | رتبه بندی | نمره |
جذب اسید | جذب اسید | B08 | دقیق | 1.0 |
جذب اسید | غوطه وری در اسید | B08 | مترادف | 0.75 |
جذب اسید | مواد شیمیایی خیس شده | B08 | مربوط به دامنه | 0.25 |
جذب اسید | رفلکس اسید | B08 | بی ارتباط | 0.0 |
ترکیب بنزین | ترکیب بنزین | Q10 | مترادف | 0.75 |
ترکیب بنزین | ترکیب سوخت | Q10 | ابرنام | 0.5 |
ترکیب بنزین | مخلوط میوه | Q10 | بی ارتباط | 0.0 |
مونتاژ شیر آب | شیر آب | A22 | نام مستعار | 0.5 |
مونتاژ شیر آب | تامین آب | A22 | هولونیوم | 0.25 |
مونتاژ شیر آب | مجمع مدرسه | A22 | بی ارتباط | 0.0 |
نمونه کوچکی از مجموعه داده با عبارات لنگر و هدف، کلاس CPC زمینه (B08: تمیز کردن، C10: نفت، گاز، سوخت، روان کنندهها، A22: قصابی، فرآوری گوشت/مرغ/ماهی)، کلاس رتبهبندی، و امتیاز شباهت . |
تولید مجموعه داده
برای تولید دادههای تشابه عبارت پتنت، ابتدا حدود 140 میلیون سند ثبت اختراع را در مجموعه ثبت اختراع Google پردازش میکنیم و به طور خودکار عبارات مهم انگلیسی را استخراج میکنیم که معمولاً عبارات اسمی هستند (به عنوان مثال، “بسته، “مجموعه بلند کردن”) و عبارات کاربردی ( به عنوان مثال، “فرآوری مواد غذایی”، “چاپ جوهر”). در مرحله بعد، عباراتی را که در حداقل 100 حق ثبت اختراع ظاهر می شوند، فیلتر و نگهداری می کنیم و به طور تصادفی از حدود 1000 مورد از این عبارات فیلتر شده، که ما آن را عبارات لنگر می نامیم، نمونه برداری می کنیم. برای هر عبارت لنگر، همه پتنتهای منطبق و تمام کلاسهای CPC برای آن پتنتها را پیدا میکنیم. سپس بهطور تصادفی تا چهار کلاس CPC منطبق را نمونهبرداری میکنیم که به کلاسهای CPC متنی برای عبارت لنگر خاص تبدیل میشوند.
ما از دو روش مختلف برای پیش تولید عبارات هدف استفاده می کنیم: (1) تطبیق جزئی و (2) یک مدل زبان ماسک شده (MLM). برای تطبیق جزئی، عباراتی را بهطور تصادفی از کل مجموعه انتخاب میکنیم که تا حدی با عبارت لنگر مطابقت دارند (مانند «کاهش» → «کاهش نویز»، «تشکیل مواد» → «مواد شکلگیری»). برای MLM، جملاتی را از پتنتها انتخاب میکنیم که حاوی یک عبارت لنگر معین هستند، آنها را پنهان میکنیم و از مدل Patent-BERT برای پیشبینی نامزدها برای بخش پوشانده شده متن استفاده میکنیم. سپس، تمام عبارات، که شامل حروف کوچک و حذف علائم نگارشی و کلیدواژههای خاص (مانند «و»، «یا»، «گفته») است، پاک میشوند و برای بررسی به ارزیابهای خبره ارسال میشوند. هر جفت عبارت به طور مستقل توسط دو ارزیاب ماهر در حوزه فناوری رتبه بندی می شود. هر ارزیاب همچنین عبارات هدف جدیدی با رتبه بندی های مختلف تولید می کند. به طور خاص، از آنها خواسته می شود تا اهداف کم شباهت و نامرتبط را ایجاد کنند که تا حدی با لنگر اصلی و/یا برخی از اهداف با شباهت بالا مطابقت دارند. در نهایت، ارزیاب ها گرد هم می آیند تا در مورد رتبه بندی خود بحث کنند و به رتبه بندی نهایی برسند.
ارزیابی مجموعه داده ها
برای ارزیابی عملکرد آن، مجموعه داده تشابه عبارت ثبت اختراع در رقابت Kaggle تطبیق عبارت به عبارت پتنت ایالات متحده استفاده شد. این رقابت بسیار محبوب بود و حدود 2000 شرکت کننده از سراسر جهان را به خود جلب کرد. روشهای مختلفی با موفقیت توسط تیمهای امتیازآور برتر استفاده شد، از جمله مدلهای گروهی از انواع BERT و تحریک (برای جزئیات بیشتر به بحث کامل مراجعه کنید). جدول زیر بهترین نتایج رقابت را نشان میدهد و همچنین چندین خط پایه را از مقاله ما نشان میدهد. متریک همبستگی پیرسون برای اندازهگیری همبستگی خطی بین نمرات پیشبینیشده و واقعی استفاده شد، که معیاری مفید برای هدفیابی مدلهای پاییندستی است تا بتوانند بین رتبهبندیهای شباهت مختلف تمایز قائل شوند.
خطوط مبنا در مقاله را می توان صفر شات در نظر گرفت به این معنا که آنها از مدل های خارج از قفسه بدون هیچ گونه تنظیم دقیق بیشتر در مجموعه داده جدید استفاده می کنند (ما از این مدل ها برای جاسازی عبارات لنگر و هدف به طور جداگانه و محاسبه کسینوس استفاده می کنیم. شباهت بین آنها). نتایج رقابت Kaggle نشان می دهد که با استفاده از داده های آموزشی ما، می توان به پیشرفت های قابل توجهی در مقایسه با مدل های NLP موجود دست یافت. ما همچنین عملکرد انسان در این کار را با مقایسه نمرات یک ارزیاب واحد با امتیاز ترکیبی هر دو ارزیاب تخمین زدهایم. نتایج نشان میدهد که این کار حتی برای متخصصان انسانی کار آسانی نیست.
مدل | آموزش | همبستگی پیرسون |
word2vec | ضربه صفر | 0.44 |
حق ثبت اختراع-BERT | ضربه صفر | 0.53 |
جمله-BERT | ضربه صفر | 0.60 |
Kaggle مقام اول تک نفره | به خوبی تنظیم شده است | 0.87 |
گروه کاگل مقام اول | به خوبی تنظیم شده است | 0.88 |
انسان | 0.93 |
عملکرد مدلهای محبوب بدون تنظیم دقیق (صفر شات)، مدلهایی که بر روی مجموعه دادههای مشابه عبارت پتنت بهعنوان بخشی از رقابت Kaggle تنظیم شدهاند، و عملکرد تک انسان. |
نتیجه گیری و کار آینده
ما مجموعه داده تشابه عبارت حق اختراع را ارائه می کنیم که به عنوان مجموعه داده محک در مسابقه تطبیق عبارت پتنت ایالات متحده به عبارت مورد استفاده قرار گرفت، و نشان دادیم که با استفاده از داده های آموزشی ما، می توان به پیشرفت های قابل توجهی در مقایسه با مدل های NLP موجود دست یافت.
معیارهای چالش برانگیز یادگیری ماشین اضافی را می توان از مجموعه ثبت اختراع ایجاد کرد، و داده های ثبت اختراع راه خود را به بسیاری از مدل های امروزی که بیشتر مورد مطالعه قرار گرفته اند، باز کرده است. به عنوان مثال، مجموعه داده متنی C4 که برای آموزش T5 استفاده می شود حاوی اسناد ثبت اختراع بسیاری است. مدل های BigBird و LongT5 نیز از پتنت ها از طریق مجموعه داده BIGPATENT استفاده می کنند. در دسترس بودن، گستردگی و شرایط استفاده باز از داده های متن کامل (به مجموعه داده های عمومی ثبت اختراعات Google مراجعه کنید) اختراعات را به منبعی منحصر به فرد برای جامعه تحقیقاتی تبدیل می کند. احتمالات برای کارهای آینده شامل طبقه بندی انبوه چند برچسبی، خلاصه سازی، بازیابی اطلاعات، شباهت متن-تصویر، پیش بینی نمودار استنادی و ترجمه است. برای جزئیات بیشتر به مقاله مراجعه کنید.
سپاسگزاریها
این کار از طریق همکاری با Kaggle، Satsyil Corp.، USPTO و MaxVal امکان پذیر شد. با تشکر از همکاران Ian Wetherbee از Google، Will Cukierski و Maggie Demkin از Kaggle. از جری ما، اسکات بلیو و جیمی هولکامب از USPTO و سوجا چیتاماهلینگام از MaxVal برای مشارکتهایشان تشکر میکنیم.