robots.txt – روشی انعطاف پذیر برای کنترل نحوه کاوش در وب سایت شما | وبلاگ مرکزی جستجوی Google | Google برای توسعه دهندگان

جمعه ، 7 مارس 2025

یک ابزار دیرینه برای صاحبان وب سایت ، Robots.txt بیش از 30 سال است که در حال استفاده فعال است و به طور گسترده توسط اپراتورهای خزنده (مانند ابزارهای مربوط به صاحبان سایت ، خدمات و موتورهای جستجو) پشتیبانی می شود. در این نسخه از سری Robots Refresher ، ما نگاهی دقیق تر به Robots.txt به عنوان یک روش انعطاف پذیر برای گفتن روبات ها برای آنچه می خواهید آنها در وب سایت خود انجام دهند (یا انجام ندهند) خواهیم دید.

شروع با robots.txt

نحوه کار این پرونده ها ساده است: شما یک فایل متنی به نام “robots.txt” تهیه می کنید و سپس آن را در وب سایت خود بارگذاری می کنید – و اگر از یک سیستم مدیریت محتوا (CMS) استفاده می کنید ، احتمالاً حتی ساده تر است. اگر کل سایت شما ممکن است خزیده شود ، می توانید پرونده robots.txt خود را خالی بگذارید (یا اصلاً آن را نداشته باشید) ، یا می توانید قوانینی را برای مدیریت خزیدن اضافه کنید. به عنوان مثال ، برای گفتن به همه رباتها (همچنین به عنوان خزنده ، روبات ، عنکبوت) که از صفحه “افزودن به سبد خرید” خودداری کنید ، می توانید این را در پرونده robots.txt خود بنویسید:

user-agent: *
disallow: /cart

کارهای خاص دیگری که می توانید با Robots.txt انجام دهید

Robots.txt چاقوی ارتش سوئیس برای بیان آنچه می خواهید روبات های مختلفی در وب سایت شما انجام دهند یا انجام ندهند: فقط می تواند چند خط باشد ، یا با قوانین دقیق تر که الگوهای URL بسیار خاص را هدف قرار می دهد ، می تواند پیچیده باشد. برای حل مسائل فنی (مانند صفحات غیر ضروری صفحه بندی شده) یا به دلایل سرمقاله یا شخصی می توانید از یک فایل robots.txt استفاده کنید. به عنوان مثال ، شما می توانید:

چندین ربات (اما نه همه) را در مورد یک قانون مطلع کنید

این گروه به هر دو می گوید examplebot وت otherbot برای دور ماندن از /search مسیر

user-agent: examplebot
user-agent: otherbot
disallow: /search

برای جلوگیری از مسیرهایی که حاوی یک قطعه خاص از متن هستند ، به یک ربات بگویید

به عنوان مثال ، شما می توانید بگویید documentsbot برای خزیدن هر پرونده ای که حاوی “.pdf” به نام خود باشد.

user-agent: documentsbot
disallow: *.pdf

به یک ربات بگویید که ممکن است وبلاگ شما را خزنده کند ، اما پیش نویس ها نیست

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

یک خزنده را از بخشی از وب سایت خود مسدود کنید ، در حالی که به سایر خزنده ها اجازه می دهد به سایت شما دسترسی پیدا کنند

این پرونده robots.txt ذکر شده را رد می کند aicorp-trainer-bot از دسترسی به هر چیزی غیر از صفحه اصلی ، در حالی که اجازه می دهد سایر خزنده ها (مانند موتورهای جستجو) به سایت دسترسی پیدا کنند.


user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

نظر خود را برای آینده خود بگذارید

می توانید یک خط را با # به خود یادآوری کنید که چرا یک قانون خاص را در آنجا قرار داده اید.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

برای موارد دیگر ، می توانید لیست ما از قوانین مفید Robots.txt را بررسی کنید.

ایجاد تغییر در پرونده robots.txt (عملاً)

پروتکل محرومیت روبات ها (Rep) با قرار دادن قوانین (“کار می کند (“اجازه دادن“یا”محاکمه کردن“) و مشخص کنید که این قوانین برای این قوانین اعمال می شود. شما نیازی به یادگیری برنامه نویسی یا کمانچه با ابزار ندارید ؛ فقط می توانید این قوانین را در یک فایل متنی قرار داده و آن را در وب سایت خود بارگذاری کنید.

برای اکثر وب سایت ها ، حتی ساده تر از آن است! اگر از CMS استفاده می کنید ، معمولاً چیزی در حال حاضر ساخته شده است تا به شما در تغییر پرونده Robots.txt خود کمک کند. به عنوان مثال ، برخی از CMSE به شما امکان می دهد فایل robots.txt خود را با استفاده از کادر انتخاب یا با یک فرم ساده سفارشی کنید ، و بسیاری از آنها افزونه هایی دارند که به شما در تنظیم و نوشتن قوانین برای پرونده robots.txt خود کمک می کنند. برای بررسی آنچه ممکن است در CMS خود وجود داشته باشد ، می توانید نام CMS +”ویرایش Robots.txt” را جستجو کنید.

پس از تنظیم امور ، می توانید تست کنید تا مطمئن شوید که پرونده شما در نظر گرفته شده است. بسیاری از ابزارهای تست ساخته شده توسط انجمن وب برای کمک به این امر ، مانند ابزار تست Tamethebot’s Robots.TXT و این Robots.txt که از کتابخانه بازپرداخت منبع باز استفاده می کنند.

اگر در مورد Robots.txt سؤالی دارید ، می توانید ما را در LinkedIn پیدا کنید یا با متخصصان همفکر در انجمن های جامعه ما گپ بزنید.

Source link