هش کردن فرآیند تبدیل یک کلید یا رشته ای از کاراکترها به مقدار دیگری است.
تبدیل با استفاده از یک الگوریتم هش (تابع) انجام می شود.
چکسوم الگوریتمی است که حاوی تابع هش است.
در این پست با نحوه عملکرد هش و چکسام و نحوه استفاده گوگل از چکسامها در جستجو آشنا میشویم.
هشینگ چیست؟
Hashing از توابع یا الگوریتم ها برای تبدیل داده های شی به یک مقدار صحیح استفاده می کند.
هش برای ذخیره، پردازش و بازیابی داده ها به طور موثرتر استفاده می شود.
چک سام چیست؟
چکسوم عددی است که بر اساس دادههای موجود در یک فایل محاسبه میشود.

یک چکسوم میتواند یک فایل (یا سایر ساختارهای داده) را به عنوان یک مقدار طول ثابت بر اساس مجموع محتویات فایل (مانند مجموع بایتهای موجود در فایل) نشان دهد.
Checksums چگونه کار می کند؟
جمعهای چک با محاسبه مجموع بایتهای یک فایل کار میکنند.
Checksum ممکن است بر اساس محتویات کامل فایل ها محاسبه شود. آنها همچنین می توانند بر اساس یک بخش، یک نسخه اصلاح شده یا یک نسخه عادی یک فایل محاسبه شوند.
به عنوان مثال، در فایل های متنی، تمام حروف سند به بایت (0 و 1) تبدیل می شوند.
سپس، تمام حروف (یا بایتها) در صفحه جمع میشوند و مقدار طول ثابتی را برمیگردانند.
در نهایت، دو سند را می توان با تفریق چک جمع های مربوطه با یکدیگر مقایسه کرد.

تفاوت بین Checksum و Hash
چکسامها و هشها اغلب به جای هم استفاده میشوند، اما تفاوتهای جزئی با هم دارند.
به طور خلاصه، Checksum یک هش است، اما هش لزوما یک Checksum نیست.
هش کردن برنامه ها
- رمزگذاری
- ذخیره سازی
- کارایی
چرا از چک جمع ها استفاده کنیم؟
چرا از جمعهای کنترلی برای مقایسه دادهها در مقایسه بایت به بایت استفاده میکنیم؟
پاسخ: چون بسیار کوچکتر است (256 بیت).
مقایسه بایت با بایت مستلزم داشتن کل کپی از فایل ها است که می تواند بسیار بزرگ باشد (گیگابایت).
اندازه نسبتاً کوچک یک چکسوم به اندازهای کوچک است که بتوان آن را به عنوان ابرداده فایل در نظر گرفت.
چگونه می توان از چک جمع ها استفاده کرد؟
چک جمع ها را می توان به روش های مختلفی استفاده کرد:
- در موتورهای جستجو برای بررسی اسناد تکراری،
- در مهندسی برای بررسی فایل های خراب
- در رمزنگاری برای انتقال امن داده ها.
مثالی از نحوه استفاده گوگل از Checksum؟
چرا هش کردن در موتورهای جستجو مهم است؟
اگر به «جستجوی رکورد» گوش دهید، ممکن است شنیده باشید که گری ایلیز در مورد هش کردن و نقش آن در جستجو صحبت می کند.
هش کردن به کاهش حافظه مورد نیاز برای پردازش مجموعههای بزرگ دادههای متنی با تبدیل متن به هش کمک میکند.
- مقایسه یک رشته کوتاه ساده تر از یک مقاله بزرگ با 20 هزار کلمه است.
در گوگل، آنها از الگوریتم های هش متفاوت برای هش محتوای اصلی (MC) استفاده می کنند و هر محتوای مرکزی را برای شناسایی متعارف مقایسه می کنند. مقایسه می کنند checksums
برای شناسایی:
- محتوای تکراری
- اگر فایلی از آخرین باری که خزنده از سایت بازدید کرده تغییر کرده است
- توصیه های خبری
مقایسه فایل ها
Checksum یک تابع هش است که می تواند برای ارزیابی افزونگی بین اسناد استفاده شود.
همانطور که در مورد آن بحث کردیم، چک جمع فایل عددی است که از داده ها محاسبه می شود. دو فایل با محتویات یکسان دارای چکسوم یکسانی خواهند بود.
فایل های بسیار مشابه دارای چک جمع های نزدیک تری نسبت به فایل های مختلف خواهند بود.
هنگامی که دو فایل مختلف دارای چک جمع یکسان باشند، به آن برخورد می گویند. به طور کلی باید تا حد امکان از این کار اجتناب شود.
بنابراین، برای شناسایی موارد تکراری، گوگل محتوا را به هش یا چکسوم کاهش میدهد و مقادیر را برای شناسایی موارد تکراری مقایسه میکند.
Googlebot چگونه از Checksum استفاده می کند؟
Googlebot به Last Modifed
هدر پاسخ
الف می فرستد If-Modified-Since
درخواست با استفاده از آخرین تاریخ خزیدن سند.
اگر سرور a ارسال کند 304 Not Modified
در پاسخ به مرورگر، سند بیشتر پردازش نخواهد شد.
با این حال، اگر سرصفحه آخرین اصلاح وجود نداشته باشد، Googlebot فایل را دانلود میکند و Checksum محتوا را محاسبه میکند و آن را با Checksum محتوای آخرین باری که خزیده شده است مقایسه میکند.
Checksum کجا استفاده می شود؟
Checksum در بسیاری از مکانهای Google استفاده میشود:
- Googlebot
- سیستم نمایه سازی گوگل
- اپلیکیشن جستجوی گوگل
گوگل گزارش داد که از simhash برای خزیدن و Minhash و LSH برای شخصیسازی Google News استفاده کرده است.
کدام حق اختراع گول به مبلغ چک اشاره می کند؟
نام های دیگر چکسام ها؟
اگرچه دقیقاً یکسان نیست، چکسامها اغلب به عنوان هش شناخته میشوند.
تعاریف
مدت، اصطلاح | تعریف |
---|---|
چک جمع | مقداری که تعداد بیت های یک عنصر داده را نشان می دهد |
تابع هش | تابعی که می تواند برای نگاشت داده ها به یک مقدار با اندازه ثابت استفاده شود |
هش کردن | فرآیند استفاده از یک الگوریتم هش برای تبدیل داده ها به یک مقدار با اندازه ثابت |
الگوریتم MD5 | یکی از پرکاربردترین الگوریتم های هش که یک مقدار هش 128 بیتی تولید می کند. |
SHA (الگوریتم هش امن) | الگوریتم هش محبوب |
منابع
نتیجه
برای نتیجه گیری، هش و چک جمع ها به طور گسترده ای در اینترنت برای تبدیل ساختار داده به هش با اندازه ثابت استفاده می شوند.

استراتژیست سئو در Tripadvisor، Seek سابق (ملبورن، استرالیا). متخصص در سئو فنی. در تلاش برای سئوی برنامهریزی شده برای سازمانهای بزرگ از طریق استفاده از پایتون، R و یادگیری ماشین.