معرفی Robots.txt
به جرئت می توان این موضوع را بیان کرد که در دهه های اخیر شرکت های بسیاری به دنبال راه حل های امن برای وب سایت های خود هستند. صاحبان وب سایت های خاص برای بالا بردن امنیت محتوایی و صفحات سایت خود را از نظر بازدید و ایندکس به دنبال راحت ترین راه هستند. فایل Robots.txt یک گزینه فوق العاده است که ما به شما پیشنهاد می کنیم. ما در سامانه فعال شده همراه شما هستیم تا اطلاعات لازم را در باره Robots.txt ارائه کنیم. Robots.txt چیست؟ اینترنت یک سری قوانین و محدودیت های ایجاد کرده است که روبات …
به جرئت می توان این موضوع را بیان کرد که در دهه های اخیر شرکت های بسیاری به دنبال راه حل های امن برای وب سایت های خود هستند. صاحبان وب سایت های خاص برای بالا بردن امنیت محتوایی و صفحات سایت خود را از نظر بازدید و ایندکس به دنبال راحت ترین راه هستند. فایل Robots.txt یک گزینه فوق العاده است که ما به شما پیشنهاد می کنیم. ما در سامانه فعال شده همراه شما هستیم تا اطلاعات لازم را در باره Robots.txt ارائه کنیم.
Robots.txt چیست؟
اینترنت یک سری قوانین و محدودیت های ایجاد کرده است که روبات های اینترنتی باید از آن ها پیروی کنند. روبات های استاندارد قوانین را رعایت و به هیچ عنوان محتوا و صفحات وب سایت ها را بازدید و ایندکس نمی کنند. اما روبات هایی وجود دارند که به آن ها روبات های اسپم می گویند و توجه خاصی به این قوانین ندارند. Robots.txt از ظاهر و نام آن پیداست که یک فایل متنی بی نظیر و بسیار ساده است.
فایلی که وظیفه محدود کردن دسترسی های گوگل البته روبات های گوگل را بر عهده دارد. این فایل باعث می شود که موتورهای جستجوگر نتوانند وب سایت و صفحات آن را بازدید نمایند و به زبان ساده تر دسترسی روبات های گوگل را محدود می کند.
در همین ابتدا مشخص کردیم که Robots.txt چیست، اما به نظر شما با این اطلاعات کم می توان کاری پیش برد. قطعاً جواب شما نیز منفی است. چگونگی، نحوه کار، قرار دادن آن و بسیاری از نکات مهم را در ادامه مطالب بیان می کنیم.
نحوه ایجاد فایل Robots.txt
همانطور که در مطالب بالا اشاره کردیم فایل Robots.txt یک فایل بسیار ساده متنی است که نحوه ایجاد آن نیز به همان مقدار ساده و آسان است. شما برای ایجاد آن به یک ویرایشگر متنی مانند Notepad نیاز دارید. مراحلی را که بیان می کنیم را یک به یک اجرا نمایید، تا نتیجه و عملکرد مناسبی را از ایجاد فایل به دست آورید.
- ویرایشگر Notepad باز کنید
- یک صفحه خالی در آن با عنوان Robots.txt ایجاد و ذخیره نمایید.
- وارد control Panel شوید.
- برای دسترسی به دایرکتوری روت سایت public_html را باز نمایید.
به این نکته باید توجه داشت اگر شما صاحب یک وب سایت هستید و قصد دارید که به تمامی قسمت های سایت خود و صفحات آن دسترسی داشته باشید باید بعد از اجرای public_html فایل مورد نظر را داخل آن قرار دهید.
جایگاه فایل Robots.txt
متوجه شدیم که برای دسترسی ساده به دایرکتوری روت سایت یک صفحه در public_html باید باز و فایل را داخل آن ذخیره کرد. اما برای جستجو و پیدا کردن آن باید به FTP که در سی پنل قرار دارد بروید.
حجم فایل Robots.txt
بهتر است بدانید که اکثر فایل های متنی حجم بسیاری ندارند. فایل Robots.txt نیز جزء این دسته از فایل های کم حجم به شمار می آید که حدوداً صد بایت حجم را از آن خود می کند.
دستورات فایل Robots.txt
این فایل به دلیل داشتن فرمت txt جایگاه بسیار مناسبی برای دستورات است که ما قصد داریم برخی از آن ها را معرفی کنیم. این دستورات را به دو دسته تقسیم کرده اند. دسته اول دستوراتی که با آن قادر هستید موتورهای جستجوگر را محدود کنید و دسته دوم دستوراتی که با آن موتورهای جستجوگر را می توانید کراول نمایید. هر یک از دستورات زیر را بعد از پیدا کردن نام روبات باید اجرا کنید.
1ـ User-agent:*
آیا تا به حال دیده اید که در ابتدای برخی از عبارت های علامت ” * ” قرار می دهند. آیا با خود فکر کرده اید که این علامت به چه دلیل در ابتدای عبارات آمده است؟ این علامت نوعی صدا زن به شمار می آید، یعنی با استفاده از آن بهراحتی می توانید تمامی روبات های موتور جستجو را صدا بزنید. روبات های جستجو انواع مختلفی دارند و پیدا کردن آن ها زمان بسیاری را در بر می گیرد.
با این علامت تمامی آن ها را می توان مورد خطاب قرار داد. از آن جایی که روبات های موتور جستجو انواع مختلفی دارند، اگر بخواهید آن ها بیابید باید نام آن ها را به خاطر بسپارید. اعمال این موضوع کار بسیار دشوار است، اما با اجرای علامت ” * ” دیگر نیازی به نام برای خطاب قرار دادن آن ها ندارید.
2ـ دستور دیس الو (Disallow)
برای ایندکس نکردن از دستور Disallow می توان استفاده کرد. با بکارگیری این دستور، روبات های موتور جستجو را نسبت به ایندکس کردن صفحات و بخشی از سایت را محدود کنید. نکته ای که باید بیان کرد این است در شرایط خاص مشکلاتی برای یکی از صفحات وب سایت پیش می آید که قبل از انجام هر کاری باید آن را برطرف کرد، اینجا قبل از برطرف کردن دستور دیس الورا در فایل Robot.txt باید اجرا کرد. نادیده گرفتن این مشکل امکان ضربه زدن به سئو سایت را دو چندان می کند.
3ـ دستور Allow
دستور Allow نقطه مقابل دستور Disallow است؛ یعنی شما با اجرا دستور Allow به روبات های موتور جستجوگر این اجازه را می دهید که به راحتی ایندکس را انجام دهند. نکته قابل ذکر در مورد دستور Allow این است که اگر زمانی سایت دچار مشکل فنی شد یا در سئوی آن به موردی برخورد کردید، نباید دستور Allow را اجرا نمایید. نادیده گرفتن این موضوع باعث می شود که رتبه سایت در نتایج گوگل دچار مشکل شود.
4ـ دستور Crawl-delay
اگر بخواهید عمل ایندکس با تاخیر انجام شود باید از دستور Crawl-delay استفاده کنید. این دستور به راحتی می تواند به موتور های جستجو دستور دهد که صفحه ای را با تاخیر ایندکس کنند؛ بهترین زمان استفاده از دستور Crawl-delay لحظه ای است که سایت دچار مشکل شده است و شما قصد برطرف کردن آن را دارید.
5ـ دستور Sitemap
Sitemap یکی از دستورات فایل Robot.txt به شمار می آید. این دستور نقشه سایت برای معرفی کردن سایت مپ به کراولرها مورد استفاده قرار می گیرد. در اینجا فایل XML است که شامل لیستی از تمام صفحات وب سایت شما و همچنین اطلاعاتی بوده که به هر URL منسوب می شود. روش اجرای آن مشابه روبات فایل txt است، این دستور یعنی همان نقشه سایت، به موتورهای جستجو این اجازه را می دهد که در یک مکان به راحتی در صفحات وب سایت و فهرست آن ها بخزید.
بعد از اجرای دستور User-agent:* که مخاطب آن تمامی روبات های موتور جستجوگر گوگل است دیگر دستورات باید به ترتیب اجرا شود یعنی ابتدا فایل ها و دستورات محدود کننده اجرا و بعد دستورات ایندکس و خزیدن مورد اجرا قرار گیرد.
در مطالب بالا توضیحاتی در مورد فایل Robot.txt و نحوه اجرا آن و دستورات بیان شد. اما دلیل استفاده از این فایل چیست؟ دلایل بسیاری وجود دارد که به چند نمونه از آن اشاره می کنیم.
دلایل استفاده از فایل Robot.txt
- مدیریت دسترسی موتور های جستجوی گوگل
- بهینه سازی سایت به وسیله Robots.txt
- مدیریت لینک ها و آدرس ها (URL) با Robots.txt
- به حداکثر رساندن بودجه خزش
1ـ مدیریت دسترسی موتور های جستجوی گوگل
یکی از دلایل اصلی استفاده از این فایلRobot.txt ، مدیریت دسترسی موتورهای جستجوی گوگل است. یک مدیر سایت برای جلوگیری از زیر سوال بردن سئو توسط قوانین در اجرای یک صفحه در سایت خود باید از دستور Robot.txt استفاده کند.
2ـ بهینه سازی سایت به وسیله Robots.txt
روبات های بسیار زیادی در طول روز، وارد گوگل سایت ها می شوند. این روبات ها برای بردن اطلاعات برای گوگل ایجاد شده اند. روبات های که به سایت شما سر می زنند یا ارسال می شوند رفته رفته سرعت و عملکرد سایت و صفحات آن را پایین می آورند. یکی از بهترین راه حل ها برای بر طرف کردن این مشکل استفاده از فایل Robots.txt است. اجرای آن سرعت و عملکرد سایت و صفحات را بهینه می سازد.
3ـ مدیریت لینک ها و آدرس ها (URL) با Robots.txt
مدیریت لینک ها و URL که تعداد بسیار زیادی دارند کار نسبتا دشواری به نظر می آید. برای اینکه مدیریت و بررسی لینک ها را ساده کنید، می توانید از فایل Robot.txt استفاده نمایید.
4ـ به حداکثر رساندن بودجه خزش
خزش یک عامل پر هزینه به شمار می آید؛ حال اگر در زمان ایندکس کردن نیز دچار مشکل شوید این هزینه چند برابر می شود. برای به حداقل رساندن این هزینه می توانید از فایل robots.txt در دستورات خود استفاده نماید. خزش و بودجه را صرف صفحات کنید که ارزش بیشتری دارند.
شاید در ذهن خود به سوالاتی نظیر:
اگرسایت فایل robots.txt را نداشته باشد چه اتفاقی رخ می دهد؟
اگر فایل Robots.txt به درستی آپلود نشود چه اتفافی رخ می دهد؟
این سوالات جزء ابتدایی ترین سوالاتی است که به احتمال زیاد به ذهن شما خطور می کند اگر بتوانید پاسخی برای آن ها بیابید، قبول کردن این مسئله به سادگی صورت می گیرد. حال ما برای راحتی شما به سوالات پاسخ داده ایم آنها را با دقت مرور کنید.
1ـ اگر سایت فایل Robots.txt را نداشته باشد چه اتفاقی رخ می دهد
اگر فایل Robots.txt در هاست سایت وجود نداشته باشد، به راحتی روبات ها و خزندگان موتورهای جستجوگر به صفحات عمومی سایت دسترسی پیدا و تمامی محتوای سایت مورد نظر شما را ایندکس می کنند.
2ـ اگر فایل Robots.txt به درستی آپلود نشود چه اتفاقی رخ می دهد؟
مشکلاتی که برای سایت به وجود می آید شکل های مختلفی دارد. برای این منظور باید بدانید که در آخر چه نتیجه ای را تمایل دارید دریافت کنید. با این اوضاع که نتیجه بدست آمده به نوع مشکل بستگی دارد می توان گفت اگر فایل متنی مذکور با فرمت صحیح و استاندارد ایجاد نشود یا اطلاعات و دستورات اعمال شده قادر به شناسایی نباشند، نتیجه به دست آمده رضایت بخش نیست؛ یعنی روباتهای موتورهای جستجو به راحتی می توانند به اطلاعات سایت شما دسترسی پیدا کنند و قادر است آنها را ایندکس کنند.
برای دریافت نتیجه مطلوب و تغییر رفتار روبات ها باید دستورهای وارده در فایل Robots.txt دقیق و منطبق ایجاد و اعمال شود. اگر برخلاف رفتار مدنظر، متن را در داخل فایل اعمال نمایید، روبات ها همچنان به بررسی و ایندکس خود در صفحات وب سایت ادامه می دهند.
خطاهای فایل Robots.txt
بررسی خطاهای فایل Robots.txt بسیار مهم نیست و شما نیازی به تنظیم آن به شکل درست ندارید؛ زیرا این امر توسط ابزارهای گوگل انجام می شود. روبات های بسیار قوی در گوگل وجود دارند که عمل تست کردن را بر عهده داشته و مانع خارج شدن سایت از فهرست می شوند.
دانستن برخی نکات در مورد فایل Robots.txt می تواند در این زمینه به شما کمک کند. این نکات مهم شامل:
فایل Robots.txt باید در پوشه و root اصلی سایت قرار بگیرد.
- روبات ها بسیاری مانند malware robots و email address scrapers وجود دارند به راحتی ممکن فایل Robots.txt را نادیده می گیرند..
- فایل Robots.txt را با دقت در داخل پوشه قرار دهید تا به راحتی بدان دسترسی داشته و آن را محدود نکنید.
- ساب دامین ها مجزا هستند و برای هر یک ازآن با باید یک فایل Robots.txt جدا ایجاد کرد.
- با قرار دادن فایل Robots.txt در جایگاه مناسب و صحیح در انتهای URL بررسی سایت را به نحوه فوق العاده ای انجام دهید.
سخن پایانی
اگر دغدغه شما امنیت محتوایی و دسترسی روبات های اینترنتی است، روش های بسیاری وجود دارند که به آن ها کلاه سیاه سئو می گویند. استفاده از این روش ها جریمه های بسیاری را برای سایت به ارمغان می آورند. باید این موضوع را مدنظر قرار داد که جریمه شدن توسط گوگل آن هم به صورت دائم قابل جبران نیست و راه بازگشتی برای شما نمی ماند. بهترین و مناسب ترین راه برای از بین بردن این دغدغه و بالا بردن امنیت صفحات وب سایتی استفاده از Robot.txt است.
سامانه فعال شده با تجربه چند ساله خود در زمینه اجرای دستورات و بالا بردن عملکرد سئو و سایت می تواند بهترین راه کارها را در اختیار شما قرار دهد.
مقاله تخصصی و کاملی بود ممنون از سایت خوبتون
مقاله تخصصی و کاملی بود ممنون از سایت خوبتون