一般情况,网站的根目录都会有一个robots.txt文件,是一个纯文本文档。那这个robots.txt文件是什么,有什么作用呢?robots.txt怎么写?下面深山给您一个个讲解。

站长

  • 公益宣传

行业网 > 行业资讯 > 站长 > ↬ 正文站长

网站robots.txt文件的作用及robots写法详解

行业吧2019-06-14 08:41站长快速评论

一般情况,网站的根目录都会有一个robots.txt文件,是一个纯文本文档。那这个robots.txt文件是什么,有什么作用呢?robots.txt怎么写?下面深山给您一个个讲解。 本文来自行业导吧

robots文件是什么?

robots.txt文件是存放与网站根目录下的一个txt格式的文本文档,叫做robot协议,也可以简单的理解为爬虫协议、蜘蛛协议等,是网站与搜索引擎爬虫之间的一个协议。

本文来自行业导吧

协议是什么意思?计议、协商、商议。那搜索引擎爬虫是做什么的?是抓取我们网站内容的。robots文件就好似网站和爬虫之间签订的一份协议,告诉它我网站的内容,哪些你可以抓取收录,哪些你不能碰!

交网址,行业吧网站导航快速审核各行业优质站长推送各大搜索平台,同时帮助站长网站优化提

robots.txt文件写法详解 交网址,行业吧网站导航快速审核各行业优质站长推送各大搜索平台,同时帮助站长网站优化提

robots文件有什么作用?

1.保护我们网站的隐私内容不被爬虫抓取,表面透露隐私内容。例如:用户数据、管理员信息等。 行业导航管理系统

2.我们可以利用好robots文件来做好网站的SEO优化工作,比如清理网站死链的时候可以把死链接写进robots文件,再或者可以将网站地图写进robots方便爬虫一次性抓取网站内容等等。

交网址,行业吧网站导航快速审核各行业优质站长推送各大搜索平台,同时帮助站长网站优化提

robots.txt文件基本介绍

1. 自定义搜索引擎爬虫

交网址,行业吧网站导航快速审核各行业优质站长推送各大搜索平台,同时帮助站长网站优化提

User-agent: 表示定义哪个搜索引擎,在robots.txt文件的第一行

www.hangyeba.cn

  1. User-agent: * 所有蜘蛛
  2. User-agent: Baiduspider,自定义百度蜘蛛
  3. User-agent: Googlebot,自定义谷歌蜘蛛

常见搜索引擎爬虫(蜘蛛)名称:

内容来自hangyeba

  • 百度蜘蛛:Baiduspider
  • 谷歌蜘蛛:Googlebot
  • 360蜘蛛:360Spider
  • 搜狗蜘蛛:Sogou News Spider
  • 必应蜘蛛:bingbot
  • SOSO蜘蛛:Sosospider

这类自定义蜘蛛的写法可参考淘宝和百度等:https://www.taobao.com/robots.txthttps://www.baidu.com/robots.txt

交网址,行业吧网站导航快速审核各行业优质站长推送各大搜索平台,同时帮助站长网站优化提

2.禁止访问

行业导航好,好行业导航

Disallow: 表示禁止访问。

www.hangyeba.cn

3.允许访问 交网址,行业吧网站导航快速审核各行业优质站长推送各大搜索平台,同时帮助站长网站优化提

Allow: 表示允许+访问。

www.hangyeba.cn

通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面,具体写法请继续浏览!

行业导航管理系统

robots文件书写注意事项:

1.robots文件的后缀必须是.txt;

www.hangyeba.cn

2.robots文件必须全小写字母命名,并且存放在网站的根目录下面;

内容来自hangyeba

3.在写robots文件的时候,Disallow、Allow、Sitemap等词首字母必须大写,后面的字母则要小写。 本文来自行业导吧

4.特别注意,在书写robots事,应用英文状态下的冒号,并且冒号后面必须有一个英文状态下的空格。 www.hangyeba.cn

robots.txt书写注意事项 本文来自行业导吧

robots.txt写法详解

1.允许所有搜索引擎访问所有目录

内容来自hangyeba

User-agent: *
Allow: /

PS:这里的*表示所有。

内容来自hangyeba

2.禁止所有搜索引擎访问所有目录

行业导航好,好行业导航

User-agent: *
Disallow: / 本文来自行业导吧

3.禁止爬虫访问网站中的某些目录: copyright hangyeba

User-agent: *
Disallow: /123

copyright hangyeba

禁止爬虫访问/123开头的所有文件,如http://www.vipshan.com/1234/、http://www.vipshan.com/123/1.html、http://www.vipshan.com/12345/1.html等都不能被抓取 交网址,行业吧网站导航快速审核各行业优质站长推送各大搜索平台,同时帮助站长网站优化提

User-agent: *
Disallow: /123/

禁止爬虫访问/123/目录下面的所有文件。 内容来自hangyeba

4.禁止爬虫访问某一类文件:

内容来自hangyeba

User-agent: *
Disallow: /*.css$ 禁止访问所有css结尾的文件
Disallow: /*.js$  禁止访问所有js结尾的文件
Disallow: /*.php$ 禁止访问所有php结尾的文件
Disallow: /123/*.jpg$ 禁止访问/123/目录下的jpg结尾的文件

copyright hangyeba

PS:*表示所有,$表示结尾,上面的汉字不用写进robots去!!!

交网址,行业吧网站导航快速审核各行业优质站长推送各大搜索平台,同时帮助站长网站优化提

5.禁止访问网站中的动态页面: 行业导航管理系统

User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止访问/123/目录下的动态页面 网站快审,给站长提供名站导航!

PS:?表示动态路径,*表示所有。

行业导航好,好行业导航

6.禁止访问某些字母开头的目录

网站快审,给站长提供名站导航!

可以巧用这个技巧来隐藏我们网站的一些目录,例如网站后台。假设www.vipshan.com的后台目录是/abcdef/可以这样写:

行业导航管理系统

User-agent: *
Disallow: /abc*

robots.txt禁止爬虫访问 行业导航好,好行业导航

PS:这样可以就表示所有abc开头的目录都不能访问,所以要注意一下不要禁止了需要被抓取的栏目。

内容来自hangyeba

7.禁止访问和允许访问同时存在的情况 行业导航好,好行业导航

假设/123/这个栏目下有1.html、2.html、3.html这样三个文件,我要允许访问1.html而其他的要禁止,可以这样写: 网站快审,给站长提供名站导航!

User-agent: *
Allow: /123/1.html
Disallow: /123/

行业吧网站导航(www.hangyeba.cn): 您的分类目录,行业网站导航平台,收集各行业网站,站长自主的

8.自定义搜索引擎:

行业吧网站导航(www.hangyeba.cn): 您的分类目录,行业网站导航平台,收集各行业网站,站长自主的

用User-agent:来定义搜索引擎,*表示所有 网站快审,给站长提供名站导航!

百度爬虫名字:11Baiduspider www.hangyeba.cn

谷歌爬虫名字:Googlebot(列举两个,其他的名称自己搜下)

www.hangyeba.cn

User-agent: Baiduspider表示自定义百度蜘蛛 www.hangyeba.cn

User-agent: Googlebot表示自定义谷歌蜘蛛 行业导航管理系统

这个我就不列举了,大家可以直接参考百度或者淘宝这类大网站的robots的写法就ok了。

本文来自行业导吧

9.最后是网站xml地图 行业导航管理系统

Sitemap: http://www.vipshan.com/sitemap.xml

大概我们常用到的深山都总结到了,希望对大家有所帮助。robots.txt文件写完传到网站根目录之后,大家可以到百度资源平台的robots检测工具去检查一下https://ziyuan.baidu.com/robots,避免把需要被抓取的内容屏蔽了!

行业导航管理系统

- END -

浏览完了?你可以点我去评论留下观点!

爱心赞助(分分都是爱):加好友可以免费为您诊断分析网站QQ:47084606

  • 行业网站

    爱心赞助

  • 行业网站

    爱心赞助

相关文章

评论

    不发表一下观点,这个评论功能拿来做什么?
    • 全部评论(0
      还没有评论,快来抢沙发吧!