فایل robots.txt چیست

فایل robots.txt چیست ؟

 Robots.txt یک فایل متنی تعریف می شود که در واقع صاحبان سایت آن را می سازند. شاید پیش خود فکر کنید که هدف از ایجاد فایل robots.txt چیست. مدیران سایت، این فایل ها را به منظور هدایت روبات های موتور جستجو برای نحوه خزیدن و ایندکس سایت ایجاد می کنند. این فایل ها در پیرو برنامه حذف روبات ها یا همان REP به وجود آمده اند که در واقع مجموعه ای از استانداردهایی است که مشخص می کند روبات ها چگونه مطالب را جستجو و فهرست بندی می کنند.

در عمل, فایل های robots.txt مشخص می کنند که آیا نرم افزار ها و ربات های جستجو کننده می‌توانند  قسمت‌های یک وب سایت را کاوش کنند یا نمی توانند. این دستورالعمل‌ها به وسیله «اجازه دادن» یا «اجازه ندادن» به رفتارهای این نرم افزار ها تعیین می‌شوند.

نحوه کار فایل robots.txt چیست ؟

 نحوه کار فایل robots.txt چیست ؟

موتورهای جستجو دو شغل اصلی دارند:

وظیفه اول آن ها جستجو در بین سایت ها برای پیدا کردن محتوا است. وظیفه دیگر آن ها نیز این است که محتواهایی که پیدا کرده اند متناسب با موضوعشان دسته بندی کنند تا کاربران بتوانند آن ها را بیابند.

برای جستجو در بین سایت ها یا به اصطلاح خزیدن، موتورهای جستجو پیوندها را دنبال می کنند تا از یک سایت به سایت دیگر برسند. در نهایت ، میلیاردها پیوند و وب سایت را جستجو می کنند تا مطلب مورد نظر را بیابند.

بعد از آن که ربات جستجو، وارد یک وبسایت می شود تا محتواهای آن را بررسی کند، در ابتدای کار به دنبال یک فایل robots.txt می گردد. اگر توانست آن را پیدا کند، ابتدا به بررسی آن فایل و اینکه محتویات آن فایل robots.txt چیست، می پردازد زیرا در فایل های robots.txt دستورالعمل هایی راجع به این که چگونه به جستجوی سایت مورد نظر بپردازد، اطلاعاتی که در این فایل ها ذخیره شده است،‌ کار ربات جستجوگر راحت تر می کند. اگر فایل robots.txt دارای هیچ دستورالعملی مبنی بر این که ربات جستجوگر محدودیت هایی در زمینه خزیدن سایت دارد، نباشد یا حتی اگر سایت مورد نظر حاوی فایل robots.txt نباشد، ربات جستجوگر به خزیدن خود در سایت ادامه می دهد.

 

نکاتی که در رابطه با robots.txt باید بدانید.

 نکاتی که در رابطه با robots.txt باید بدانید.

  • برای پیدا شدن فایل txt، این فایل باید در فهرست بالای وب سایت قرار داشته باشد در غیر این صورت امکان دارد که به وسیله ربات های جستجوگر پیدا نشود.
  • اگر فایل های txt کمی نامشان فرق کند،‌ پیدا نمی شوند. یعنی فایل هایی با نام Robots.txt یا robots.TXT یا مثال هایی شبیه این، به وسیله ربات ها پیدا نخواهند شد.
  • بعضی از ربات ها ممکن است تصمیم بگیرند که فایل txt شما را نادیده بگیرند. این مسئله برای ربات های بدافزار یا مخرب آدرس ایمیل بیشتر پیش می آید.
  • فایل های txt در دسترس همه قرار دارد. اگر سایت شما فایل robots.txt داشته باشد و شما در انتهای هر دامنه، عبارت robots.txt/ را اضافه کنید، هر کسی می تواند ببیند که شما چه دستورالعمل هایی را به ربات های جستجو داده اید. بنابراین از این فایل ها برای پنهان کردن اطلاعات حساس استفاده نکنید.
  • هر زیر دامنه در یک دامنه از فایلهای txt جداگانه استفاده می کند. این بدان معناست که هر دو blog.example.com و example.com باید فایل robots.txt مخصوص خود را داشته باشند.

دستور زبان فایل robots.txt چیست ؟

داشتن دانش کلی در رابطه با دستور زبان فایل های robots.txt، مسئله مهمی است. این فایل ها پنج اصطلاح رایج دارند که در ادامه از معانی آن ها آگاه می شویم.

  • User-agent: به معنای همان ربات جستجوگری است که شما به آن دستور می دهید که اجازه دارد کدام صفحه ها را بررسی کند.
  • Disallow: دستوری که به ربات داده می شود URL خاصی را جستجو نکند. فقط استفاده از یک عبارت Disallow برای هر URL مجاز است.
  • Allow: (فقط برای Googlebot مورد استفاده است): این دستور به Googlebot می گوید که اجازه دارد صفحه خاصی را جستجو کند حتی اگر بررسی صفحه اصلی همان صفحه، برای آن ربات مجاز نباشد.
  • Crawl-delay: مدت زمانی که یک ربات جستجوگر قبل از بارگیری و خزیدن محتوای صفحه باید منتظر بماند. توجه داشته باشید که Googlebot این فرمان را تأیید نمی کند، اما می توان میزان خزیدن را در Google Search Console تنظیم کرد.
  • Sitemap: برای آن مورد استفاده قرار می گیرد که مشخص کنید که هر فایل txt شما متعلق به کدام آدرس در سایت شما است. البته باید حواستان باشد که این دستور فقط به وسیله Google ، Ask ، Bing و Yahoo پشتیبانی می شود.

دستور زبان فایل robots.txt چیست ؟

تطابق الگوریتم‌ ها در فایل robots.txt چیست ؟

زمانی که از فایل های robots.txt برای آن استفاده شود که بخواهد اجازه دسترسی به خزیدن URLها را به ربات ها بدهد یا آن اجازه را از آن ها سلب کند، کمی ممکن است دستورالعمل های این فایل ها پیچیده به نظر برسند زیرا سعی می کنند با استفاده از بعضی الگوریتم ها اجازه خزیدن بخشی از این URLها داده شود. Google و Bing هر دو از این الگوریتم ها پیروی می کنند. این دو الگوریتم عبارتند از ستاره (*) و علامت دلار ($).

* یک علامتی است که دنباله ای از کاراکترها را نشان می دهد.

$ با انتهای URL مطابقت دارد.

تطابق الگوریتم‌ ها در فایل robots.txt چیست ؟

دلیل نیاز ما به فایل robots.txt چیست ؟

فایل های robots.txt مشخص می کنند که یک ربات جستجوگر کدام قسمت های سایت شما را بررسی کند و اجازه دسترسی به کدام بخش ها را دارد. البته ممکن است که از این فایل ها دچار ضررهایی نیز شوید. اگر به طور اشتباه، شما دسترسی Googlebot بر جستجو کردن درسایتتان را از بین ببرید، احتمال دارد که ضررهای زیادی متحمل شوید. اما در کل استفاده از فایل های robots.txt بسیار مفید است. در ادامه تلاش کردیم بخشی از این دلایل را برای شما ذکر کنیم.

برخی از موارد استفاده رایج عبارتند از:

  • مانع می شود که محتواهای تکراری در صفحه نتایج جستجو گوگل قرار بگیرند.
  • مانع می شود که قسمت هایی از وب سایت شما که می خواهید خصوصی بماند، به وسیله ربات ها جستجو شوند.
  • مشخص کردن آدرس صفحات سایتتان
  • مشخص کردن زمان جستجو ربات ها برای آن که بارگذاری سرور شما زمانی که ربات ها مشغول خزیدن هستند،‌ طولانی نشود.

جمع بندی

همانطور که گفتیم یکی از مواردی که برای بهینه سازی سایت به کار می رود استفاده از فایل robots.txt است. در این مقاله سعی کردیم که تعریف دقیقی از فایل robots.txt و نکات مهم درباه ی آن را بیان کنیم. امیدواریم این مطالب برای شما مفید بوده باشد.

نظرات کاربران