بازیابی تولیدی برای رتبه بندی پاسخ ها

مایکروسافت مدل جدید پاسخگویی به سؤالات محاوره ای را معرفی کرد که از سایر روش ها بهتر عمل می کند و به سؤالات سریع تر و دقیق تر پاسخ می دهد و در عین حال از منابع بسیار کمتری استفاده می کند.

آنچه پیشنهاد شده است روش جدیدی برای رتبه‌بندی متن‌ها از محتوا با استفاده از چیزی است که آنها بازیابی تولیدی برای پاسخگویی به سؤالات مکالمه می‌نامند، که آن را GCoQA نامیدند.

محققان می نویسند که مسیر بعدی بررسی نحوه استفاده از آن برای جستجوی عمومی وب است.

بازیابی تولیدی برای پاسخگویی به سؤالات مکالمه

یک مدل زبان خودرگرسیون پیش بینی می کند که کلمه یا عبارت بعدی چیست.

این مدل از مدل‌های اتورگرسیو استفاده می‌کند که از «رشته‌های شناسه» استفاده می‌کنند که به زبان انگلیسی ساده، نمایش‌هایی از متن‌های یک سند هستند.

در این پیاده سازی، آنها از عنوان صفحه (برای تشخیص اینکه صفحه درباره چه چیزی است) و عنوان بخش (برای تشخیص اینکه قسمتی از متن در مورد چیست) استفاده می کنند.

آزمایش بر روی داده‌های ویکی‌پدیا انجام شد، جایی که می‌توان به عنوان صفحه و عناوین بخش‌ها برای توصیفی بودن اعتماد کرد.

آنها برای شناسایی موضوع یک سند و موضوع قسمت های موجود در بخشی از سند استفاده می شوند.

بنابراین، اگر در دنیای واقعی استفاده شود، مانند این است که از عنصر عنوان برای یادگیری اینکه یک صفحه وب درباره چیست و سرفصل‌ها برای درک اینکه بخش‌های یک صفحه وب درباره چیست، استفاده کنید.

«شناسه‌ها» راهی برای رمزگذاری تمام آن دانش به‌عنوان یک نمایش است که به قسمت‌های صفحه وب و عناوین نگاشت می‌شود.

متن‌هایی که بازیابی می‌شوند بعداً در مدل خودرگرسیون دیگری قرار می‌گیرند تا پاسخ سؤالات را ایجاد کنند.

بازیابی مولد

برای بخش بازیابی، مقاله تحقیقاتی می‌گوید این مدل از تکنیکی به نام «جستجوی پرتو» برای تولید شناسه‌ها (نمایش‌هایی از قسمت‌های صفحه وب) استفاده می‌کند که سپس به ترتیب احتمال پاسخ‌دهی رتبه‌بندی می‌شوند.

محققان می نویسند:

ما از جستجوی پرتو استفاده می کنیم… یک تکنیک رایج برای تولید چندین شناسه به جای یک شناسه.

به هر شناسه تولید شده یک امتیاز مدل زبان اختصاص داده می شود که ما را قادر می سازد تا لیست رتبه بندی شناسه های تولید شده را بر اساس این امتیازات بدست آوریم.

شناسه‌های رتبه‌بندی طبیعتاً می‌توانند با فهرست رتبه‌بندی متن‌ها مطابقت داشته باشند.»

مقاله تحقیقاتی سپس ادامه می دهد که این فرآیند را می توان به عنوان یک “جستجوی سلسله مراتبی” دید.

سلسله مراتبی، در این سناریو، به معنای مرتب کردن نتایج ابتدا بر اساس موضوع صفحه و سپس بر اساس متن های داخل صفحه (با استفاده از عناوین بخش) است.

هنگامی که آن قسمت ها بازیابی می شوند، یک مدل خودرگرسیون دیگر پاسخ را بر اساس قسمت های بازیابی شده ایجاد می کند.

مقایسه با سایر روش ها

محققان دریافتند که GCoQA از بسیاری از روش‌های رایج دیگر که آن را با آن مقایسه کردند، بهتر عمل کرد.

برای غلبه بر محدودیت ها (گلوگاه ها) در روش های دیگر مفید بود.

از بسیاری جهات، این مدل جدید نوید ایجاد تغییر عمیق در پاسخگویی به سؤالات محاوره ای را می دهد.

به عنوان مثال، از 1/10 مقدار منابع حافظه نسبت به مدل‌های فعلی استفاده می‌کند، که جهشی بزرگ در کارایی است، به علاوه سریع‌تر است.

محققان می نویسند:

“…به کارگیری روش ما در عمل راحت تر و کارآمدتر می شود.”

محققان مایکروسافت بعداً به این نتیجه رسیدند:

GCoQA با بهره مندی از تعاملات متقابل ریز در ماژول رمزگشا، می تواند به طور موثرتری به زمینه مکالمه توجه کند.

علاوه بر این، GCoQA مصرف حافظه کمتر و کارایی استنتاج بالاتری در عمل دارد.

محدودیت های GCoQA

با این حال، چندین محدودیت وجود دارد که قبل از اعمال این مدل نیاز به حل دارد.

آنها دریافتند که GCoQA به دلیل استفاده از تکنیک «جستجوی پرتو» محدودیت‌هایی دارد که توانایی GCoQA را برای یادآوری «گذرگاه‌های مقیاس بزرگ» محدود می‌کند.

افزایش اندازه پرتو نیز کمکی به این موضوع نکرد، زیرا سرعت مدل را کاهش داد.

محدودیت دیگر این است که ویکی‌پدیا در مورد استفاده از عناوین به روشی معنادار قابل اعتماد است.

اما استفاده از آن در صفحات وب خارج از ویکی‌پدیا می‌تواند باعث شود که این مدل با مشکل مواجه شود.

بسیاری از صفحات وب در اینترنت در استفاده از عناوین بخش خود برای نشان دادن دقیق آنچه در مورد یک متن است، کار ضعیفی انجام می دهند (کاری که سئوکاران و ناشران قرار است انجام دهند).

در مقاله پژوهشی آمده است:

«قابلیت تعمیم GCoQA یک نگرانی مشروع است.

GCoQA به شدت به رابطه معنایی بین سؤال و شناسه‌های متن برای بازیابی متن‌های مرتبط متکی است.

در حالی که GCoQA با استفاده از سه مجموعه داده آکادمیک ارزیابی شده است، اثربخشی آن در سناریوهای دنیای واقعی، که در آن سؤالات اغلب مبهم و چالش برانگیز هستند برای تطبیق با شناسه‌ها، نامشخص است و نیاز به بررسی بیشتر دارد.

GCoQA یک فناوری جدید امیدوارکننده است

در نهایت، محققان بیان کردند که دستاوردهای عملکرد یک پیروزی قوی است. محدودیت ها چیزی است که باید از طریق آن کار کرد.

مقاله پژوهشی نتیجه می گیرد که دو زمینه امیدوارکننده برای ادامه مطالعه وجود دارد:

(1) بررسی استفاده از بازیابی مولد در سناریوهای جستجوی وب عمومی تر که در آن شناسه ها مستقیماً از عناوین در دسترس نیستند. و (2) بررسی ادغام بازیابی متن و پیش‌بینی پاسخ در یک مدل واحد و مولد به منظور درک بهتر روابط درونی آنها.

ارزش GCoQA

مقاله تحقیقاتی (بازیابی تولیدی برای پاسخگویی به سؤالات مکالمه) توسط یکی از دانشمندان محقق در GitHub منتشر شده است.

برای یافتن پیوند PDF به آن صفحه GitHub مراجعه کنید.

همانطور که گاهی اوقات اتفاق می افتد، مقالات تحقیقاتی راهی برای ناپدید شدن در پشت دیوار پرداخت دارند، بنابراین هیچ تضمینی وجود ندارد که در آینده همچنان در دسترس باشد.

GCoQA ممکن است به زودی به یک موتور جستجو ارائه نشود.

ارزش GCoQA این است که نشان می‌دهد چگونه محققان برای کشف راه‌هایی برای استفاده از مدل‌های مولد برای تغییر جستجوی وب آنطور که امروزه می‌شناسیم کار می‌کنند.

این می تواند پیش نمایشی از ظاهر موتورهای جستجو در آینده نسبتا نزدیک باشد.

اطلاعیه و چکیده مقاله پژوهشی را بخوانید:

بازیابی تولیدی برای پاسخگویی به سؤالات مکالمه

تصویر برجسته توسط Shutterstock/Sundry Photography

سئو PBN | خبر های جدید سئو و هک و سرور