Hashing چیست (و چگونه کار می کند). جمع های چک، توابع هش و بیشتر!

هش کردن فرآیند تبدیل یک کلید یا رشته ای از کاراکترها به مقدار دیگری است.

تبدیل با استفاده از یک الگوریتم هش (تابع) انجام می شود.

چک‌سوم الگوریتمی است که حاوی تابع هش است.

در این پست با نحوه عملکرد هش و چک‌سام و نحوه استفاده گوگل از چک‌سام‌ها در جستجو آشنا می‌شویم.

هشینگ چیست؟

Hashing از توابع یا الگوریتم ها برای تبدیل داده های شی به یک مقدار صحیح استفاده می کند.

هش برای ذخیره، پردازش و بازیابی داده ها به طور موثرتر استفاده می شود.

چک سام چیست؟

چک‌سوم عددی است که بر اساس داده‌های موجود در یک فایل محاسبه می‌شود.

یک چک‌سوم می‌تواند یک فایل (یا سایر ساختارهای داده) را به عنوان یک مقدار طول ثابت بر اساس مجموع محتویات فایل (مانند مجموع بایت‌های موجود در فایل) نشان دهد.

Checksums چگونه کار می کند؟

جمع‌های چک با محاسبه مجموع بایت‌های یک فایل کار می‌کنند.

Checksum ممکن است بر اساس محتویات کامل فایل ها محاسبه شود. آنها همچنین می توانند بر اساس یک بخش، یک نسخه اصلاح شده یا یک نسخه عادی یک فایل محاسبه شوند.

به عنوان مثال، در فایل های متنی، تمام حروف سند به بایت (0 و 1) تبدیل می شوند.

سپس، تمام حروف (یا بایت‌ها) در صفحه جمع می‌شوند و مقدار طول ثابتی را برمی‌گردانند.

در نهایت، دو سند را می توان با تفریق چک جمع های مربوطه با یکدیگر مقایسه کرد.

تفاوت بین Checksum و Hash

چک‌سام‌ها و هش‌ها اغلب به جای هم استفاده می‌شوند، اما تفاوت‌های جزئی با هم دارند.

به طور خلاصه، Checksum یک هش است، اما هش لزوما یک Checksum نیست.

هش کردن برنامه ها

  • رمزگذاری
  • ذخیره سازی
  • کارایی

چرا از چک جمع ها استفاده کنیم؟

چرا از جمع‌های کنترلی برای مقایسه داده‌ها در مقایسه بایت به بایت استفاده می‌کنیم؟

پاسخ: چون بسیار کوچکتر است (256 بیت).

مقایسه بایت با بایت مستلزم داشتن کل کپی از فایل ها است که می تواند بسیار بزرگ باشد (گیگابایت).

اندازه نسبتاً کوچک یک چک‌سوم به اندازه‌ای کوچک است که بتوان آن را به عنوان ابرداده فایل در نظر گرفت.

چگونه می توان از چک جمع ها استفاده کرد؟

چک جمع ها را می توان به روش های مختلفی استفاده کرد:

  • در موتورهای جستجو برای بررسی اسناد تکراری،
  • در مهندسی برای بررسی فایل های خراب
  • در رمزنگاری برای انتقال امن داده ها.

مثالی از نحوه استفاده گوگل از Checksum؟

چرا هش کردن در موتورهای جستجو مهم است؟

اگر به «جستجوی رکورد» گوش دهید، ممکن است شنیده باشید که گری ایلیز در مورد هش کردن و نقش آن در جستجو صحبت می کند.

هش کردن به کاهش حافظه مورد نیاز برای پردازش مجموعه‌های بزرگ داده‌های متنی با تبدیل متن به هش کمک می‌کند.

  • مقایسه یک رشته کوتاه ساده تر از یک مقاله بزرگ با 20 هزار کلمه است.

در گوگل، آنها از الگوریتم های هش متفاوت برای هش محتوای اصلی (MC) استفاده می کنند و هر محتوای مرکزی را برای شناسایی متعارف مقایسه می کنند. مقایسه می کنند checksums برای شناسایی:

  • محتوای تکراری
  • اگر فایلی از آخرین باری که خزنده از سایت بازدید کرده تغییر کرده است
  • توصیه های خبری

مقایسه فایل ها

Checksum یک تابع هش است که می تواند برای ارزیابی افزونگی بین اسناد استفاده شود.

همانطور که در مورد آن بحث کردیم، چک جمع فایل عددی است که از داده ها محاسبه می شود. دو فایل با محتویات یکسان دارای چک‌سوم یکسانی خواهند بود.

فایل های بسیار مشابه دارای چک جمع های نزدیک تری نسبت به فایل های مختلف خواهند بود.

هنگامی که دو فایل مختلف دارای چک جمع یکسان باشند، به آن برخورد می گویند. به طور کلی باید تا حد امکان از این کار اجتناب شود.

بنابراین، برای شناسایی موارد تکراری، گوگل محتوا را به هش یا چک‌سوم کاهش می‌دهد و مقادیر را برای شناسایی موارد تکراری مقایسه می‌کند.

Googlebot چگونه از Checksum استفاده می کند؟

Googlebot به Last Modifed هدر پاسخ

الف می فرستد If-Modified-Since درخواست با استفاده از آخرین تاریخ خزیدن سند.

اگر سرور a ارسال کند 304 Not Modified در پاسخ به مرورگر، سند بیشتر پردازش نخواهد شد.

با این حال، اگر سرصفحه آخرین اصلاح وجود نداشته باشد، Googlebot فایل را دانلود می‌کند و Checksum محتوا را محاسبه می‌کند و آن را با Checksum محتوای آخرین باری که خزیده شده است مقایسه می‌کند.

Checksum کجا استفاده می شود؟

Checksum در بسیاری از مکان‌های Google استفاده می‌شود:

  • Googlebot
  • سیستم نمایه سازی گوگل
  • اپلیکیشن جستجوی گوگل

گوگل گزارش داد که از simhash برای خزیدن و Minhash و LSH برای شخصی‌سازی Google News استفاده کرده است.

کدام حق اختراع گول به مبلغ چک اشاره می کند؟

نام های دیگر چکسام ها؟

اگرچه دقیقاً یکسان نیست، چک‌سام‌ها اغلب به عنوان هش شناخته می‌شوند.

تعاریف

مدت، اصطلاح تعریف
چک جمع مقداری که تعداد بیت های یک عنصر داده را نشان می دهد
تابع هش تابعی که می تواند برای نگاشت داده ها به یک مقدار با اندازه ثابت استفاده شود
هش کردن فرآیند استفاده از یک الگوریتم هش برای تبدیل داده ها به یک مقدار با اندازه ثابت
الگوریتم MD5 یکی از پرکاربردترین الگوریتم های هش که یک مقدار هش 128 بیتی تولید می کند.
SHA (الگوریتم هش امن) الگوریتم هش محبوب

منابع

نتیجه

برای نتیجه گیری، هش و چک جمع ها به طور گسترده ای در اینترنت برای تبدیل ساختار داده به هش با اندازه ثابت استفاده می شوند.

سئو PBN | خبر های جدید سئو و هک و سرور