Lexicon Generator گوگل چیست (و چگونه کار می کند)

در این آموزش، همه چیز را در مورد Lexicon Generator مورد استفاده در بازیابی اطلاعات (مثلاً موتور جستجوی گوگل) خواهید آموخت. من توضیح خواهم داد که Lexicon Generator چیست، چگونه کار می کند، و چگونه گوگل ممکن است از آن در زیرساخت خود برای ارائه نتایج جستجو استفاده کند.

این آموزش بخشی از مجموعه یادگیری بازیابی اطلاعات و یادگیری سئو با استفاده از پتنت های گوگل است که به طور خاص مربوط به مقاله “سیستم پردازش پرس و جو چند مرحله ای و روش استفاده با مخزن فضای توکن” است.

Lexicon Generator گوگل چیست (و چگونه کار می کند)
سیستم و روش پردازش پرس و جو چند مرحله ای برای استفاده با مخزن فضای نشانه

Lexicon Generator گوگل چیست؟

مولد واژگان گوگل، همچنین به عنوان سازنده واژگان شناخته می شود، نرم افزاری است که نگاشت واژگان را ایجاد می کند که مجموعه ای از اسناد تجزیه شده را رمزگذاری می کند. به زبان ساده، ایندکس اصلی و فرزند وارونه را ایجاد می کند تا در فهرست گوگل اضافه شود.

منبع: به سمت یک موتور جستجوی وب توزیع شده

ژنراتور Lexicon از سه سازنده مختلف تشکیل شده است:

  • سازنده واژگان جهانی: نرم‌افزاری که نگاشت همه توکن‌های منحصربه‌فرد و شناسه توکن جهانی آن‌ها را در مجموعه‌ای از سند ایجاد می‌کند
  • سازنده Mini-Lexicon: نرم‌افزاری که نگاشت توکن‌های منحصربه‌فرد و شناسه توکن جهانی آنها را ایجاد می‌کند که برای رمزگذاری و رمزگشایی محدوده خاصی از موقعیت‌ها در اسناد استفاده می‌شود.
  • منطقه-سازنده واژگان: نرم افزاری که نقشه هایی را برای رمزگذاری و رمزگشایی مخزن اسناد ایجاد می کند

به زبان ساده، واژگان جهانی یک فرهنگ لغت است، و مینی واژگان یک فرهنگ لغت فرعی است که با فرهنگ لغت جهانی نگاشت شده است.

Lexicon Generator گوگل چگونه کار می کند؟

مولد واژگان Google با تولید فرهنگ لغت از نشانه‌های موجود در اسناد داخل مخزن اسناد کار می‌کند.

اول، یک فرهنگ لغت کلی (به عنوان مثال جهانی) از همه نشانه ها ایجاد می کند.

سپس، برای کارآمدی، فرهنگ لغت جهانی (واژگان جهانی) را به فرهنگ لغت‌های فرعی (مینی واژگان) تقسیم می‌کند و نگاشت‌هایی را ایجاد می‌کند تا واژگان کوچک را به واژگان جهانی برگرداند.

پس از آن، نگاشت ها را به سیستم های رمزگذاری می فرستد تا داده ها را بیشتر فشرده کند و کدهای رمزگذاری شده را در مخزن فضای نشانه ذخیره کند.

یک تکنیک جایگزین ممکن است جداسازی واژگان جهانی به واژگان منطقه ای به جای واژگان کوچک باشد.

مینی واژگان می تواند برای تولید قطعه های مربوط به پرس و جو استفاده شود. به عنوان مثال، اگر نشانه‌ها بر اساس مکانشان در صفحه گروه‌بندی شوند، می‌توان از آن‌ها برای یافتن مکان‌هایی استفاده کرد که از آنجا شروع به تولید قطعه کرد.

جهانی واژگان ساز

Global-Lexicon Builder نرم افزاری است که واژگان جهانی را تولید می کند. این کار را با بازیابی اسناد از مخزن اسناد و اختصاص شناسه های جهانی منحصر به فرد به هر توکن منحصر به فرد موجود در اسناد انجام می دهد.

سازنده ممکن است اسناد را به بخش‌هایی تقسیم کند و واژگان جهانی برای هر بخش تولید شود.

نتیجه ای که سازنده جهانی واژگان سعی می کند تولید کند، فهرست مرتب شده ای از توکن های منحصر به فرد اختصاص داده شده به شناسه های نشانه منحصر به فرد جهانی است.

مثالی از Global-Lexicon Builder
مثالی از Global-Lexicon Builder

مرتب سازی مجدد شناسه سند

در فرآیندی به نام مرتب‌سازی مجدد اسناد یا تخصیص مجدد شناسه سند، Google اسناد را قبل از ساخت واژگان مرتب می‌کند تا اسناد با کلمات مشابه به یکدیگر نزدیک‌تر باشند.

آنها را می توان بر اساس:

  • زبان
  • نام دامنه
  • مسیر URL

به این ترتیب اسناد با زبان مشابه با یکدیگر گروه بندی می شوند، اسناد هر وب سایت با هم گروه بندی می شوند و اسناد از همان وب سایت و شاخه های مشابه وب سایت نیز به یکدیگر گروه بندی می شوند.

ایده این است که با مرتب‌سازی صفحات از یک زبان و یک وب‌سایت، می‌توانید به مناطقی برسید که شناسه‌های اسناد متوالی از نظر متنی مشابه یکدیگر هستند.

این فرآیند به کاهش اندازه ایندکس، افزایش سرعت پرس و جوهای متقابل و تسهیل فشرده سازی کمک می کند.

برای اطلاعات بیشتر، ترتیب مجدد اسناد برای تقاطع سریعتر یا فشرده سازی شاخص معکوس و پردازش پرس و جو با ترتیب بهینه شده اسناد را بخوانید.

خوشه بندی اسناد مشابه

به طور مشابه، اسناد نیز ممکن است با اصطلاحات، کلمات یا عبارات دسته بندی شوند تا آنها را بر اساس مفاهیم مرتبط گروه بندی کنند.

مجدداً، ایده این است که شناسه های سند نزدیک را به اسنادی که مشابه یکدیگر هستند (مثلاً در یک خوشه موجود باشند) اختصاص دهیم.

ذخیره سازی داده ها

سازنده واژگان جهانی داده هایی مانند:

  • توکن های منحصر به فرد
  • شناسه های توکن منحصر به فرد
  • تعداد وقوع هر نشانه در مجموعه اسناد
  • زبان مرتبط با نشانه

مرتب سازی نشانه ها

سازنده واژگان جهانی با استفاده از تعداد دفعات وقوع نشانه‌ها در مجموعه اسناد، فهرست نشانه‌های منحصربه‌فرد را مرتب می‌کند. توکن ها همچنین ممکن است برای صرفه جویی در پهنای باند گروه بندی و مرتب شوند.

توکن های ویژه

برخی از توکن‌ها بیشتر از توکن‌های معمولی رخ می‌دهند. این مورد در مورد علائم نقطه گذاری یا تگ های HTML است. این نشانه های ویژه همه با استفاده از یک پیشوند در فرهنگ لغت جهانی گروه بندی می شوند.

تقسیم بندی شاخص

برای بهبود کارایی ذخیره سازی و بازیابی، مخزن اسناد را می توان به پارتیشن تقسیم کرد. به طور کلی، پارتیشن بندی شاخص مبتنی بر سند برای سادگی و هزینه استفاده می شود.

با پارتیشن بندی منطقی اسناد مشابه، یک واژگان سراسری برای هر پارتیشن ایجاد می شود.

پارتیشن بندی شاخص مبتنی بر سند
منبع: Ricardo Baeza-Yates & B. Barla Cambazoglu، Yahoo Labs

Mini-Lexicon Builder

mini-lexicon builder نرم افزاری است که مینی واژگان مورد استفاده برای ذخیره محدوده های موقعیت در اسناد را تولید می کند و به ذخیره سازی اجازه می دهد فضای کمتری را اشغال کند.

این مورد برای کاهش هزینه ذخیره سازی استفاده مجدد از شناسه ها از یک زیر شاخه به فهرست دیگر استفاده می شود.

مینی واژه ساز
مینی واژه ساز

mini-lexicon به Google اجازه می دهد تا هر فرهنگ لغت فرعی با طول ثابت (mini-lexicon) را به جای فرهنگ لغت با طول متغیر (global-lexicon) ذخیره کند. آنها همچنین از نظر بایت (1 بایت) نسبت به Global-Lexicon (4 بایت) کوچکتر هستند، بنابراین تعداد بایت های هر توکن کاهش می یابد.

Min-Lexicon عموماً برای محبوب ترین نشانه ها در مجموعه اسناد رزرو شده است.

مینی واژگان به واژگان جهانی باز می گردد.

منطقه-Lexicon Builder

سازنده واژگان منطقه نرم افزاری است که نمایه معکوس (مثلاً مخزن فضای نشانه) را دریافت می کند و آن را به مناطق تقسیم می کند، هر منطقه مجموعه ای از نشانه های مشابه را هدف قرار می دهد.

با استفاده از نشانگرهای پرش، تقاطع لیست پست سریعتر را فعال می کند. این تکنیکی برای ذخیره واژگان بر اساس منطقه و استفاده از نشانگرهای پرش برای جلوگیری از پردازش قسمت‌هایی از فهرست پست‌هایی است که در نتایج جستجو نشان داده نمی‌شوند.

کدام اختراع به ژنراتور Lexicon اشاره می کند؟

نام‌های احتمالی دیگر برای Lexicon Generator؟

زیرساخت والدین Google درگیر است

سیستم پردازش پرس و جو در کجا قرار می گیرد؟

  • سیستم بازیابی اطلاعات

زیرساخت Google Children درگیر است

مولد واژگان را می توان به دو سازنده واژگان مختلف تقسیم کرد.

  • Lexicon Generator
    • سازنده جهانی-Lexicon
    • سازنده Mini-Lexicon

تعاریف

مدت ثبت اختراع تعریف
Lexicon Generator نرم افزاری که نگاشت واژگانی را ایجاد می کند که مجموعه ای از اسناد تجزیه شده را رمزگذاری می کند
Global-Lexicon Builder نرم افزاری که واژگان جهانی را تولید می کند
Mini-Lexicon Builder نرم افزاری که مینی واژگان را تولید می کند
سازنده واژگان منطقه نرم افزاری که واژگان منطقه را تولید می کند
واژگان جهانی ذخیره داده برای نگاشت همه نشانه های منحصر به فرد و شناسه توکن جهانی آنها در مجموعه ای از سند
مینی واژگان ذخیره داده توالی نگاشت توکن های منحصر به فرد و شناسه توکن جهانی آنها که برای رمزگذاری و رمزگشایی محدوده خاصی از موقعیت ها در اسناد استفاده می شود.
واژگان منطقه ذخیره داده توالی نگاشت توکن های منحصر به فرد و شناسه توکن جهانی آنها که برای رمزگذاری و رمزگشایی محدوده خاصی از موقعیت ها در اسناد استفاده می شود.
مخزن Tokenspace مجموعه ای توکن شده از اسناد
رمز هر شیء یافت شده در یک سند (اصطلاحات، عبارات، علائم نقطه گذاری، تگ های HTML).