دوشنبه ، 24 فوریه 2025
هر از چند گاهی ما در مورد Robots.txt ، برچسب های متا روبات ها و عملکرد کنترل آنها سؤال می کنیم. به دنبال سریال دسامبر ما در مورد خزیدن ، ما فکر کردیم که این زمان مناسبی برای جمع آوری نوری خواهد بود. بنابراین ، اگر در مورد این کنترل ها کنجکاو هستید ، در این مجموعه پست وبلاگ جدید دنبال کنید!
بیایید از همان ابتدا با Robots.txt شروع کنیم.
بنابراین ، robots.txt چیست؟
“robots.txt” پرونده ای است که هر وب سایت می تواند ارائه دهد. در ساده ترین شکل خود ، این یک فایل متنی است که در سرور ذخیره می شود. تقریباً همه وب سایت ها دارای یک پرونده robots.txt هستند. برای نگاه کردن به یکی ، نام دامنه را بگیرید و اضافه کنید /robots.txt
تا آخر ، سپس به آن آدرس مرور کنید. به عنوان مثال ، پرونده robots.txt این وب سایت در است developers.google.com/robots.txt
بشر
اکثر وب سایت ها از سیستم های مدیریت محتوا (CMSE) استفاده می کنند که این پرونده ها را به صورت خودکار انجام می دهند ، اما حتی اگر وب سایت خود را “با دست” درست می کنید ، ایجاد آن آسان است. ما به برخی از تغییرات در پست های آینده نگاهی خواهیم انداخت.
این پرونده ها برای چیست؟
پرونده های robots.txt به خزنده های وب سایت می گویند کدام قسمت از یک وب سایت برای دسترسی خودکار در دسترس است (ما آن را خزنده می نامیم) ، و کدام قسمت ها نیستند. این امکان را به سایت ها می دهد تا همه چیز را از کل سایت خود ، بخش هایی از سایت خود یا حتی پرونده های خاص در سایت خود قرار دهند. علاوه بر اینکه قابل خواندن با دستگاه است ، پرونده ها نیز قابل خواندن انسانی هستند. این بدان معناست که همیشه یک پاسخ ساده بله یا خیر در مورد اینکه آیا یک صفحه مجاز به دسترسی به صورت خودکار توسط یک خزنده خاص وجود دارد یا خیر ، وجود دارد.
این یک روش استاندارد برای هر کسی است که یک خزنده را دنبال کند تا از این دستورالعمل ها پیروی کند ، و برای یک توسعه دهنده آسان برای پشتیبانی از آنها آسان است-بیش از 1000 کتابخانه منبع باز برای توسعه دهندگان وجود دارد. این پرونده برای خزیدن بهینه یک وب سایت دستورالعمل هایی را برای خزنده ها ارائه می دهد. وب سایت های مدرن می توانند پیچیده باشند ، پیمایش به طور خودکار می تواند چالش برانگیز باشد ، و قوانین Robots.TXT به خزنده ها کمک می کند تا روی محتوای مناسب تمرکز کنند. این همچنین به خزنده ها کمک می کند تا از صفحات ایجاد شده پویا که می توانند فشار بر سرور ایجاد کنند ، جلوگیری کنند و خزیدن را غیر ضروری ناکارآمد کنند. از آنجا که پرونده های Robots.txt از نظر فنی برای روابط با صاحبان وب سایت مفید هستند و بیشتر اپراتورهای خزنده تجاری از آنها پیروی می کنند.
توسط عموم ساخته و گسترش یافته است
پرونده های Robots.txt تقریباً تا زمانی که اینترنت وجود داشته باشد ، بوده است و این یکی از ابزارهای اساسی است که اینترنت را قادر می سازد مانند آن کار کند. HTML ، پایه و اساس صفحات وب ، در سال 1991 اختراع شد ، اولین مرورگرها در سال 1992 آمدند ، و Robots.txt در سال 1994 وارد شد. این بدان معنی است که آنها حتی گوگل را که در سال 1998 تأسیس شده بود ، پیش بینی می کنند. این قالب از آن زمان عمدتاً بدون تغییر بوده است ، و پرونده ای از روزهای اولیه هنوز هم معتبر خواهد بود. طی سه سال تعامل جامعه جهانی ، در سال 2022 یک استاندارد پیشنهادی IETF ساخته شد.
اگر یک وب سایت دارید ، احتمال دارد که پرونده Robots.txt نیز داشته باشید. یک جامعه پر جنب و جوش و فعال در اطراف Robots.txt وجود دارد ، هزاران ابزار نرم افزاری وجود دارد که به ساخت ، آزمایش ، مدیریت یا درک پرونده های Robots.txt در همه شکل ها و اندازه ها کمک می کند. زیبایی Robots.txt این است که شما به ابزارهای فانتزی احتیاج ندارید ، می توانید پرونده را در یک مرورگر بخوانید و برای وب سایتی که مدیریت می کنید ، آن را در یک ویرایشگر متن ساده تنظیم کنید.
منتظر …
فرمت robots.txt انعطاف پذیر است. جایی برای رشد وجود دارد ، جامعه وب عمومی می تواند روی آن گسترش یابد ، و خزنده ها می توانند در صورت لزوم ، بدون شکستن استفاده موجود ، پسوندها را اعلام کنند. این اتفاق در سال 2007 رخ داد ، هنگامی که موتورهای جستجو دستورالعمل “نقشه سایت” را اعلام کردند. همچنین به طور مرتب اتفاق می افتد زیرا “کاربران” جدید توسط اپراتورهای خزنده و موتورهای جستجو ، مانند مواردی که برای اهداف هوش مصنوعی استفاده می شود ، پشتیبانی می شوند.
robots.txt برای ماندن در اینجا است. قالب های پرونده جدید چند سال طول می کشد تا با جامعه اینترنتی بزرگتر نهایی شود ، ابزارهای مناسبی برای مفید شدن آنها برای اکوسیستم حتی بیشتر طول می کشد. این آسان است ، دانه ای و بیانگر آن است ، به خوبی درک و پذیرفته شده است ، و فقط کار می کند ، مانند این که اکنون ده ها سال کار می کند.
کنجکاو برای شنیدن اطلاعات بیشتر در مورد جزئیات؟ برای نسخه های بعدی سری Robots Refresher ما در وبلاگ Central Search با ما همراه باشید!