مدیر کل بازنشسته سایت این ارسال پرطرفدار است. صائب کوهپایه 2592 ارسال شده در 6 بهمن، ۱۳۹۵ مدیر کل بازنشسته سایت این ارسال پرطرفدار است. اشتراک گذاری ارسال شده در 6 بهمن، ۱۳۹۵ فایل robots.txt یک فایل متنی ساده است که می توان آن را با هر ویرایشگری ایجاد و با فرمت txt ذخیره نمود، این فایل در ریشه سایت قرار می گیرد (یعنی به طور مستقیم در فولدر wwwroot یا همان public_html و در بالاترین سطح) به طوری که اگر بعد از آدرس سایت، عبارت robots.txt را تایپ کنیم، این فایل در دسترس باشد از فایل robots.txt برای مواردی استفاده می شود که نمی خواهیم صفحاتی از سایتمان توسط موتورهای جستجو (ربات های خزنده) بررسی و ایندکس شود، یا ممکن است قبلا این کار صورت گرفته باشد و اکنون می خواهیم آن صفحات را به هر دلیل حذف کنیم، البته استفاده از فایل robots.txt برای حذف لینک ها از نتایج موتورهای جستجو، تنها یک پیش شرط است (شرط لازم است نه کافی!) و برای تکمیل کار، شاید ناچار باشید به ابزار وبمستر سایت هایی مثل گوگل در آدرس: https://www.google.com/webmasters/tools و بینگ در آدرس: http://www.bing.com/toolbox/webmaster مراجعه کنید. با این تفاسیر استفاده از این فایل همیشه هم ضروری نیست و همانطور که گفتیم، در موارد مسدود کردن دسترسی ربات ها به صفحات خاص (لینک های خاص) کاربرد دارد، اما به دلیل اینکه اکثر ربات های جستجوگر همواره این فایل را از سرور شما درخواست می کنند، بهتر است برای اجتناب از افزایش خطاهای 404 که در بخش log ها و آمار سایت جلوه خوبی ندارند، حتی شده یک فایل خالی با این نام در ریشه سایت خود قرار دهید. نحوه تنظیم فایل robots.txt یک فایل robots.txt معمولا از دو قانون ساده پیروی می کند، User-agent یا واسط کاربری (نوع خزنده یا ربات) و Disallow یا لینکی که دسترسی به آن را مسدود (یا مجاز) می کنیم؛ علاوه بر این، به یاد داشته باشید که در ابتدای آدرس دایرکتوری ها، باید از یک اسلش (/) نیز استفاده شود و در استفاده از حروف بزرگ یا کوچک نیز دقت کنید (به فرض دایرکتوری Image در مقایسه با image از دید ربات ها، معمولا دو آدرس متفاوت هستند). به طور مثال اگر در فایل خود کد زیر را قرار دهیم: User-agent: *Disallow: /image/ ربات ها با پیروی از این قانون، دیگر محتوای فولدر image را بررسی نکرده و در نتایج جستجو آن را نمایش نمی دهند، هنگامی که از علامت * برای واسط کاربری استفاده می کنیم، در واقع منظور ما تمام ربات ها هستند، البته ذکر این نکته لازم است که تنها خزنده های برخی سایت ها و شرکت های معروف و معتبر به این قوانین احترام می گذارند و در مقابل برخی حتی برای ارسال اسپم یا نفوذ به صفحات حساس سایت ها، از این فایل، سوء استفاده نیز می کنند، لذا این نکته دارای اهمیت زیادی است که هیچ گاه برای محافظت از دایرکتوری های حساس، مانند دایرکتوری مدیریت سایت، به این فایل بسنده نکنید (بلکه یک سیستم ورود و خروج مطمئن برای آن در نظر بگیرید) و بهتر است آدرس دایرکتوری مدیریت را نیز در آن قرار ندهید، بهترین روش برای جلوگیری از ایندکس شدن دایرکتوری های حساس، این است که هیچ لینک خروجی و در معرض دید و دسترس ربات در صفحات خود نداشته باشید و از طرف دیگر دسترسی به محتوای این نوع صفحات را با ایجاد سیستم دریافت نام کاربری و کلمه عبور، محدود کنید. استفاده ترکیبی از قوانین در فایل robots.txt تنظیمات فایل robots.txt به موارد گفته شده محدود نمی شود، شما می توانید برای یک واسط کاربری، چندین و چند آدرس یا دایرکتوری مجاز یا غیر مجاز تعریف کنید، یا با قوانین پیچیده، دستورات پیچیده تری ایجاد نمائید، به فرض در برخی سایت ها ممکن است مقادیر id سشن (session یا نشست) به عنوان بخشی از آدرس صفحه به صورت رندوم در لینک ها قرار داده شود (این موضوع یک اشکال در سئو محسوب شده زیرا موجب بروز مطالب تکراری با لینک های متفاوت می گردد) و در مقابل برخی آدرس ها نیز علامت ? را به طور طبیعی داشته باشند، در اینگونه موارد اگر بخواهیم به ربات بگوییم که به عبارات بعد از علامت ? در لینک های دارای سشن id توجه نکند، ولی لینک هایی را که به علامت ? (بدون وجود کاراکتری بعد از علامت ?) ختم می شوند، ایندکس کند، در یک فایل robots.txt خواهیم نوشت: User-agent: *Allow: /*?$Disallow: /*? به این ترتیب قانون اول اجازه ایندکس تمام آدرس هایی را که نهایتا به علامت ? ختم می شوند می دهد (علامت $ نشان دهنده پایان یک الگو است)، اما قانون دوم باعث نادیده گرفتن سشن id در لینک های داینامیک سایت می شود (در واقع وقتی از علامت $ در انتهای الگو استفاده نمی شود، یعنی هر عبارتی بعد از علامت ? بیاید، شامل آن الگو می شود). یا به فرض اگر بخواهیم چند لینک مختلف را در یک دستور مسدود کنیم، خواهیم نوشت: User-agent: *Disallow: /articles/22.htmlDisallow: /articles/23.htmlDisallow: /articles/?post=159&title=آموزش-برنامه-نویسی-وب افزودن نقشه سایت به فایل robots.txt علاوه بر مجاز و مسدود کردن لینک ها، دایرکتوری ها و فایل ها، فایل robots.txt یک قابلیت دیگر نیز دارد، از طریق این فایل می توانید نقشه xml سایت خود را به تمام ربات های خزنده معرفی کنید، برای انجام این کار کافی است با یک فاصله، آدرس کامل نقشه سایت خود را وارد نمائید، به فرض: User-agent: *Disallow: /articles/22.htmlDisallow: /articles/23.htmlDisallow: /articles/?post=159&title=آموزش-برنامه-نویسی-وبSitemap: http://siteshoma.ir/sitemap.xml با این حساب این کد ها برای IPS هست که در روت سایت درج می کنید User-agent: * Disallow: /webstat/ Disallow: /cgi-bin/ Disallow: /go/ Disallow: /cache/ Disallow: /converge_local/ Disallow: /hooks/ Disallow: /baners/ Disallow: /ips_kernel/ Disallow: /retail/ Disallow: /public/style_captcha/ Disallow: /members Disallow: /calendar Disallow: /user Disallow: /conf_global.php Disallow: /index.php?app=core&module=task Disallow: /index.php?app=forums&module=moderate§ion=moderate Disallow: /index.php?app=forums&module=extras§ion=forward Disallow: /index.php?app=members&module=chat Disallow: /index.php?&unlockUserAgent=1 Disallow: /*&module=search Allow: /*&search_tags= Disallow: /*?app=calendar Disallow: /*app=core&module=global§ion=reputation Disallow: /*app=core&module=usercp Disallow: /*app=members&module=messaging Disallow: /*&p= Disallow: /*&pid= Disallow: /*&hl= Disallow: /*&start= Disallow: /*view__getnewpost$ Disallow: /*view__getlastpost$ Disallow: /*view__old$ Disallow: /*view__new$ Disallow: /*view__getfirst$ Disallow: /*view__getprevious$ Disallow: /*view__getnext$ Disallow: /*view__getlast$ Disallow: /*&view=getnewpost$ Disallow: /*&view=getlastpost$ Disallow: /*&view=old$ Disallow: /*&view=new$ Disallow: /*&view=getfirst$ Disallow: /*&view=getprevious$ Disallow: /*&view=getnext$ Disallow: /*&view=getlast$ Disallow: /*?s= Disallow: /*&s= Disallow: /index.php?app=core&module=global§ion=login&do=deleteCookies Disallow: /index.php?app=forums&module=extras§ion=rating Disallow: /index.php?app=forums&module=forums§ion=markasread Disallow: /*&do=who Disallow: /*§ion=dname Sitemap: http://siteshoma.org/sitemap.xml Sitemap: http://siteshoma.org/sitemap.php نکته اگر به بخش آخر نگاه کنید دو پسوند فایل هست در مورد تفاوت این است که به طور استاندارد IPS از sitemap.php ساپورت میکند و اگر شما به غیر از IPS از سیستم های سایت مپ ساز استفاده کردین خروجی را برحسب XML داده مطابق با حالت دوم میزنید که با پسوند XML اضافه شده 13 3 1 لینک ارسال به اشتراک گذاری در سایت های دیگر تنظیمات بیشتر اشتراک گذاری ...
ارسالهای توصیه شده