سیستم پردازش اسناد گوگل چیست (و چگونه کار می کند)

در این آموزش، همه چیز را در مورد سیستم پردازش اسناد مورد استفاده در بازیابی اطلاعات (مثلاً موتور جستجوی گوگل) خواهید آموخت. من توضیح خواهم داد که Document Processing System چیست، چگونه کار می کند و چگونه Google ممکن است از آن در زیرساخت خود برای ارائه نتایج جستجو استفاده کند.

این آموزش بخشی از مجموعه یادگیری بازیابی اطلاعات و یادگیری سئو با استفاده از پتنت های گوگل است که به طور خاص مربوط به مقاله “سیستم پردازش پرس و جو چند مرحله ای و روش استفاده با مخزن فضای توکن” است.

نمونه سیستم پردازش اسناد در گوگل
نمونه سیستم پردازش اسناد در گوگل

سیستم پردازش اسناد گوگل چیست؟

در Google، یک سیستم پردازش اسناد نشان دهنده هر سیستم رایانه ای است که برای دریافت و پردازش اسناد استفاده می شود.

را سیستم پردازش اسناد سیستمی است که نمایه معکوس را از اسناد، صفحات یا سایت های بازیابی شده از مجموعه سند آماده می کند.

سیستم پردازش اسناد در سیستم بازیابی اطلاعات

در سیستم بازیابی اطلاعات گوگل، سیستم پردازش اسناد شامل سیستم‌هایی است که برای خزیدن، تجزیه، خوشه‌بندی و ذخیره اسناد یا بخش‌هایی از اسناد در یک مخزن اسناد استفاده می‌شوند تا توسط سیستم پردازش پرس و جو پردازش شوند.

احتمالاً در داخل سیستم Indexing قرار دارد.

سیستم پردازش اسناد اینجاست

  • نمایه معکوس سند و مخزن فضای نشانه را می سازد.
  • می تواند به شبکه های مختلف مانند اینترنت و اینترانت متصل شود.

پیکربندی های مختلف سیستم های پردازش اسناد

سیستم های پردازش اسناد ممکن است به روش های مختلفی در زیرساخت گوگل پیاده سازی شوند. به عنوان مثال، بسته به وظیفه، یک سیستم پردازش سند ممکن است شامل خزیدن، خوشه بندی یا ماژول های نمایه سازی باشد یا نباشد.

مطالب پیشنهادی  گلکسی زد فولد 4 یک قاب S Pen جدید درز پیدا کرد

سیستم های مختلف پردازش اسناد در گوگل

تنها یک سیستم پردازش اسناد وجود ندارد، زیرا سیستم های پردازش اسناد برای انجام کارهای اضافی مختلف مانند شناسایی معنایی از اسناد تصویری، تولید داده های طبقه بندی از یک سند یا استخراج حقایق از اسناد استفاده می شود. بنابراین هر سیستم پردازش سند پیکربندی خاص خود را خواهد داشت.

سیستم پردازش اسناد در سیستم خزنده وب

پردازش اسناد در سیستم خزنده وب توسط سرورهای پردازش محتوا انجام می شود.

در ادامه این آموزش، ما بر روی سیستم پردازش اسناد مورد استفاده در سیستم بازیابی اطلاعات تمرکز خواهیم کرد، همانطور که در پتنت “سیستم پردازش پرس و جو چند مرحله ای و روش برای استفاده با مخزن فضای نشانه” توضیح داده شده است.

سیستم پردازش اسناد گوگل چگونه کار می کند؟

سیستم پردازش اسناد مورد استفاده در بازیابی اطلاعات با خزیدن اسناد، سپس تجزیه اسناد به نشانه‌ها و در نهایت ذخیره نشانه‌ها در واژگان با اختصاص شناسه‌های نشانه به هر نشانه منحصربه‌فرد کار می‌کند.

تجزیه اسناد

هدف سیستم پردازش اسناد این است که هر سند یک مجموعه سند را به لیستی از نشانه ها تبدیل کند و سپس از پیش پردازش زبانی برای عادی سازی آنها به اصطلاحات نمایه سازی (مثلاً نشانه ها) استفاده کند.

نشانه هر شیء یافت شده در یک سند است. توکن ها می توانند اصطلاحات، عبارات، علائم نگارشی یا حتی تگ های HTML باشند.

پس از تجزیه، مجموعه ای از اسناد به عنوان دنباله ای از نشانه ها همراه با موقعیت آنها در سند نشان داده می شود.

مطالب پیشنهادی  پشتیبانی از تبلیغات متنی گسترده گوگل در 30 ژوئن به پایان می رسد

مهندسان گوگل در «نمایه‌سازی شبکه جهانی وب» به برخی از پردازش‌های زبانی متن اشاره می‌کنند که عموماً بر روی اسنادی مانند:

  • حذف تگ های HTML
  • توکن سازی
  • حذف کلید واژه
  • تبدیل مورد
  • ساقه

سایر اختراعات اشاره می کنند که این دو مرحله پردازش اسناد اضافی ممکن است به قیف اضافه شوند.

  • تولید اطلاعات توصیفی (نگاه کنید به: سند یاب)
  • برچسب گذاری صفت

در این مرحله، توکن‌سازی ممکن است با الگوریتم MapReduce انجام شود.

به هر نشانه یک شناسه توکن و موقعیت توکن در سند اختصاص داده می شود.

ساخت Lexicon با Lexicon Generator

مولد واژگان، همچنین به عنوان سازنده واژگان شناخته می شود، نرم افزاری است که نگاشت واژگان را تولید می کند که مجموعه ای از اسناد تجزیه شده را رمزگذاری می کند.

در اینجا هدف سازنده واژگان این است که:

  1. فرهنگ لغت اصلی (لغت نامه) نشانه ها را آماده کنید،
  2. آن را به گونه ای مرتب کنید که نشانه های مرتبط به یکدیگر نزدیکتر باشند،
  3. آن را به فرهنگ های فرعی کوچکتر تقسیم کنید (واژه های کوچک)،
  4. نگاشت ها را ایجاد کنید تا بتوانید لغت نامه های کوچکتر را به فرهنگ لغت اصلی نگاشت کنید
  5. واژگان را برای کدگذاری بفرستید و اندازه آنها را کاهش دهید
  6. داده های فشرده شده را به مخزن فضای توکن بفرستید.
ساختار نگاشت واژگان در گوگل
ساختار نگاشت واژگان در گوگل: سیستم ها و روش هایی برای تولید آمار از سیاهه های جستجو موتور جستجو

مولد واژگان شامل یک سازنده جهانی واژگان و یک سازنده واژگان کوچک است. واژگان جهانی همه نشانه ها را ذخیره می کند و مینی واژگان نگاشت ها را به صورت گروهی ایجاد می کند تا فضای ذخیره سازی ذخیره شود.

مطالب پیشنهادی  معاملات روز برنامه اندروید: Reventure، Dark Rage، موارد دیگر

این اطلاعات به سیستم پردازش پرس و جو فرستاده می شود که توکن های کدگذاری شده را با تطبیق آنها با مخزن فضای نشانه رمزگشایی می کند.

Lexicon ها را با سیستم رمزگذاری فشرده کنید

کاری که سیستم کدگذاری اساسا انجام می دهد این است که اسناد را به نمایش های فشرده ای رمزگذاری می کند که بایت های کمتری نسبت به حالت عادی می گیرند.

سیستم های رمزگذاری و رمزگشایی به طور مفصل در حق اختراع با عنوان: “سیستم و روش برای رمزگذاری و رمزگشایی داده های طول متغیر” توضیح داده شده است.

فهرست وارونه فشرده را در مخزن Tokenspace ذخیره کنید

کدام اختراع به سیستم پردازش اسناد اشاره می کند؟

زیرساخت والدین Google درگیر است

سیستم پردازش اسناد در کجا قرار می گیرد؟

  • سیستم بازیابی اطلاعات
    • سیستم پردازش اسناد
    • سیستم خزیدن وب
      • سیستم پردازش اسناد

زیرساخت Google Children درگیر است

در اینجا برخی از اجزای مورد استفاده در داخل یا همراه با موارد زیر آورده شده است:

  • سیستم پردازش اسناد
    • مخازن اسناد
    • Lexicon Generator
    • سیستم رمزگذاری
      • پیش پردازنده،
      • رمزگذار دلتا،
      • رمزگذار داده با طول متغیر
    • سیستم رمزگشایی
      • رسیور دلتا،
      • رمزگشای داده با طول متغیر

سیستم پردازش اسناد مربوط به

سیستم پردازش اسناد اغلب همراه با سیستم پردازش پرس و جو استفاده می شود.

تعاریف

مدت ثبت اختراع تعریف
سیستم پردازش اسناد سیستمی که فهرست معکوس را از اسناد، صفحات یا سایت‌های بازیابی شده از مجموعه سند آماده می‌کند. محتویات را با استفاده از یک فرآیند خودکار یا دستی پردازش می کند
رمز هر شیء یافت شده در یک سند (اصطلاحات، عبارات، علائم نقطه گذاری، تگ های HTML).
شاخص معکوس ساختار داده مورد استفاده توسط سیستم های بازیابی اطلاعات که از واژگانی از اصطلاحات، همراه با فهرستی از وقوع واژه ها و مکان ها در اسناد تشکیل شده است.
مخزن فضای توکن مجموعه ای توکن شده از اسناد
واژگان نام دیگری برای فرهنگ لغات یا واژگان
فرهنگ لغت ساختار داده ای که اصطلاحات یا واژگان را ذخیره می کند
واژگان مجموعه ای از اصطلاحات ذخیره شده در فرهنگ لغت
مولد واژگان نرم افزاری که نگاشت واژگانی را ایجاد می کند که مجموعه ای از اسناد تجزیه شده را رمزگذاری می کند
نگاشت واژگان ذخیره داده برای نگاشت تمام توکن ها و شناسه های توکن
جهانی-واژه ذخیره داده برای نگاشت همه نشانه های منحصر به فرد و شناسه توکن جهانی آنها در مجموعه ای از سند
مینی واژگان ذخیره داده توالی نگاشت توکن های منحصر به فرد و شناسه توکن جهانی آنها که برای رمزگذاری و رمزگشایی محدوده خاصی از موقعیت ها در اسناد استفاده می شود.
سیستم پردازش پرس و جو هر سیستم محاسباتی یا پردازشی که بتواند در پاسخ به یک پرس و جو اقدام کند
سئو PBN | خبر های جدید سئو و هک و سرور