در این آموزش، همه چیز را در مورد Lexicon Generator مورد استفاده در بازیابی اطلاعات (مثلاً موتور جستجوی گوگل) خواهید آموخت. من توضیح خواهم داد که Lexicon Generator چیست، چگونه کار می کند، و چگونه گوگل ممکن است از آن در زیرساخت خود برای ارائه نتایج جستجو استفاده کند.
این آموزش بخشی از مجموعه یادگیری بازیابی اطلاعات و یادگیری سئو با استفاده از پتنت های گوگل است که به طور خاص مربوط به مقاله “سیستم پردازش پرس و جو چند مرحله ای و روش استفاده با مخزن فضای توکن” است.
Lexicon Generator گوگل چیست؟
مولد واژگان گوگل، همچنین به عنوان سازنده واژگان شناخته می شود، نرم افزاری است که نگاشت واژگان را ایجاد می کند که مجموعه ای از اسناد تجزیه شده را رمزگذاری می کند. به زبان ساده، ایندکس اصلی و فرزند وارونه را ایجاد می کند تا در فهرست گوگل اضافه شود.
ژنراتور Lexicon از سه سازنده مختلف تشکیل شده است:
- سازنده واژگان جهانی: نرمافزاری که نگاشت همه توکنهای منحصربهفرد و شناسه توکن جهانی آنها را در مجموعهای از سند ایجاد میکند
- سازنده Mini-Lexicon: نرمافزاری که نگاشت توکنهای منحصربهفرد و شناسه توکن جهانی آنها را ایجاد میکند که برای رمزگذاری و رمزگشایی محدوده خاصی از موقعیتها در اسناد استفاده میشود.
- منطقه-سازنده واژگان: نرم افزاری که نقشه هایی را برای رمزگذاری و رمزگشایی مخزن اسناد ایجاد می کند
به زبان ساده، واژگان جهانی یک فرهنگ لغت است، و مینی واژگان یک فرهنگ لغت فرعی است که با فرهنگ لغت جهانی نگاشت شده است.
Lexicon Generator گوگل چگونه کار می کند؟
مولد واژگان Google با تولید فرهنگ لغت از نشانههای موجود در اسناد داخل مخزن اسناد کار میکند.
اول، یک فرهنگ لغت کلی (به عنوان مثال جهانی) از همه نشانه ها ایجاد می کند.
سپس، برای کارآمدی، فرهنگ لغت جهانی (واژگان جهانی) را به فرهنگ لغتهای فرعی (مینی واژگان) تقسیم میکند و نگاشتهایی را ایجاد میکند تا واژگان کوچک را به واژگان جهانی برگرداند.
پس از آن، نگاشت ها را به سیستم های رمزگذاری می فرستد تا داده ها را بیشتر فشرده کند و کدهای رمزگذاری شده را در مخزن فضای نشانه ذخیره کند.
یک تکنیک جایگزین ممکن است جداسازی واژگان جهانی به واژگان منطقه ای به جای واژگان کوچک باشد.
مینی واژگان می تواند برای تولید قطعه های مربوط به پرس و جو استفاده شود. به عنوان مثال، اگر نشانهها بر اساس مکانشان در صفحه گروهبندی شوند، میتوان از آنها برای یافتن مکانهایی استفاده کرد که از آنجا شروع به تولید قطعه کرد.
جهانی واژگان ساز
Global-Lexicon Builder نرم افزاری است که واژگان جهانی را تولید می کند. این کار را با بازیابی اسناد از مخزن اسناد و اختصاص شناسه های جهانی منحصر به فرد به هر توکن منحصر به فرد موجود در اسناد انجام می دهد.
سازنده ممکن است اسناد را به بخشهایی تقسیم کند و واژگان جهانی برای هر بخش تولید شود.
نتیجه ای که سازنده جهانی واژگان سعی می کند تولید کند، فهرست مرتب شده ای از توکن های منحصر به فرد اختصاص داده شده به شناسه های نشانه منحصر به فرد جهانی است.
مرتب سازی مجدد شناسه سند
در فرآیندی به نام مرتبسازی مجدد اسناد یا تخصیص مجدد شناسه سند، Google اسناد را قبل از ساخت واژگان مرتب میکند تا اسناد با کلمات مشابه به یکدیگر نزدیکتر باشند.
آنها را می توان بر اساس:
- زبان
- نام دامنه
- مسیر URL
به این ترتیب اسناد با زبان مشابه با یکدیگر گروه بندی می شوند، اسناد هر وب سایت با هم گروه بندی می شوند و اسناد از همان وب سایت و شاخه های مشابه وب سایت نیز به یکدیگر گروه بندی می شوند.
ایده این است که با مرتبسازی صفحات از یک زبان و یک وبسایت، میتوانید به مناطقی برسید که شناسههای اسناد متوالی از نظر متنی مشابه یکدیگر هستند.
این فرآیند به کاهش اندازه ایندکس، افزایش سرعت پرس و جوهای متقابل و تسهیل فشرده سازی کمک می کند.
برای اطلاعات بیشتر، ترتیب مجدد اسناد برای تقاطع سریعتر یا فشرده سازی شاخص معکوس و پردازش پرس و جو با ترتیب بهینه شده اسناد را بخوانید.
خوشه بندی اسناد مشابه
به طور مشابه، اسناد نیز ممکن است با اصطلاحات، کلمات یا عبارات دسته بندی شوند تا آنها را بر اساس مفاهیم مرتبط گروه بندی کنند.
مجدداً، ایده این است که شناسه های سند نزدیک را به اسنادی که مشابه یکدیگر هستند (مثلاً در یک خوشه موجود باشند) اختصاص دهیم.
ذخیره سازی داده ها
سازنده واژگان جهانی داده هایی مانند:
- توکن های منحصر به فرد
- شناسه های توکن منحصر به فرد
- تعداد وقوع هر نشانه در مجموعه اسناد
- زبان مرتبط با نشانه
مرتب سازی نشانه ها
سازنده واژگان جهانی با استفاده از تعداد دفعات وقوع نشانهها در مجموعه اسناد، فهرست نشانههای منحصربهفرد را مرتب میکند. توکن ها همچنین ممکن است برای صرفه جویی در پهنای باند گروه بندی و مرتب شوند.
توکن های ویژه
برخی از توکنها بیشتر از توکنهای معمولی رخ میدهند. این مورد در مورد علائم نقطه گذاری یا تگ های HTML است. این نشانه های ویژه همه با استفاده از یک پیشوند در فرهنگ لغت جهانی گروه بندی می شوند.
تقسیم بندی شاخص
برای بهبود کارایی ذخیره سازی و بازیابی، مخزن اسناد را می توان به پارتیشن تقسیم کرد. به طور کلی، پارتیشن بندی شاخص مبتنی بر سند برای سادگی و هزینه استفاده می شود.
با پارتیشن بندی منطقی اسناد مشابه، یک واژگان سراسری برای هر پارتیشن ایجاد می شود.
Mini-Lexicon Builder
mini-lexicon builder نرم افزاری است که مینی واژگان مورد استفاده برای ذخیره محدوده های موقعیت در اسناد را تولید می کند و به ذخیره سازی اجازه می دهد فضای کمتری را اشغال کند.
این مورد برای کاهش هزینه ذخیره سازی استفاده مجدد از شناسه ها از یک زیر شاخه به فهرست دیگر استفاده می شود.
mini-lexicon به Google اجازه می دهد تا هر فرهنگ لغت فرعی با طول ثابت (mini-lexicon) را به جای فرهنگ لغت با طول متغیر (global-lexicon) ذخیره کند. آنها همچنین از نظر بایت (1 بایت) نسبت به Global-Lexicon (4 بایت) کوچکتر هستند، بنابراین تعداد بایت های هر توکن کاهش می یابد.
Min-Lexicon عموماً برای محبوب ترین نشانه ها در مجموعه اسناد رزرو شده است.
مینی واژگان به واژگان جهانی باز می گردد.
منطقه-Lexicon Builder
سازنده واژگان منطقه نرم افزاری است که نمایه معکوس (مثلاً مخزن فضای نشانه) را دریافت می کند و آن را به مناطق تقسیم می کند، هر منطقه مجموعه ای از نشانه های مشابه را هدف قرار می دهد.
با استفاده از نشانگرهای پرش، تقاطع لیست پست سریعتر را فعال می کند. این تکنیکی برای ذخیره واژگان بر اساس منطقه و استفاده از نشانگرهای پرش برای جلوگیری از پردازش قسمتهایی از فهرست پستهایی است که در نتایج جستجو نشان داده نمیشوند.
کدام اختراع به ژنراتور Lexicon اشاره می کند؟
نامهای احتمالی دیگر برای Lexicon Generator؟
زیرساخت والدین Google درگیر است
سیستم پردازش پرس و جو در کجا قرار می گیرد؟
- سیستم بازیابی اطلاعات
زیرساخت Google Children درگیر است
مولد واژگان را می توان به دو سازنده واژگان مختلف تقسیم کرد.
- Lexicon Generator
- سازنده جهانی-Lexicon
- سازنده Mini-Lexicon
تعاریف
مدت ثبت اختراع | تعریف |
---|---|
Lexicon Generator | نرم افزاری که نگاشت واژگانی را ایجاد می کند که مجموعه ای از اسناد تجزیه شده را رمزگذاری می کند |
Global-Lexicon Builder | نرم افزاری که واژگان جهانی را تولید می کند |
Mini-Lexicon Builder | نرم افزاری که مینی واژگان را تولید می کند |
سازنده واژگان منطقه | نرم افزاری که واژگان منطقه را تولید می کند |
واژگان جهانی | ذخیره داده برای نگاشت همه نشانه های منحصر به فرد و شناسه توکن جهانی آنها در مجموعه ای از سند |
مینی واژگان | ذخیره داده توالی نگاشت توکن های منحصر به فرد و شناسه توکن جهانی آنها که برای رمزگذاری و رمزگشایی محدوده خاصی از موقعیت ها در اسناد استفاده می شود. |
واژگان منطقه | ذخیره داده توالی نگاشت توکن های منحصر به فرد و شناسه توکن جهانی آنها که برای رمزگذاری و رمزگشایی محدوده خاصی از موقعیت ها در اسناد استفاده می شود. |
مخزن Tokenspace | مجموعه ای توکن شده از اسناد |
رمز | هر شیء یافت شده در یک سند (اصطلاحات، عبارات، علائم نقطه گذاری، تگ های HTML). |
استراتژیست سئو در Tripadvisor، Seek سابق (ملبورن، استرالیا). متخصص در سئو فنی. در تلاش برای سئوی برنامهریزی شده برای سازمانهای بزرگ از طریق استفاده از پایتون، R و یادگیری ماشین.