打开注册页面的脚本
favico
  • 首页
  • 网站案例
  • SEO优化
  • 技术文档
  • 行业动态
  • 关于我们

${_profilename_}

更多
爬虫分析2019-11-26
robot.txt设置2019-11-26
页面静态化2019-11-26
SEO优化2019-10-25

robot.txt设置

发布时间:2019-11-26 14:32:54     作者:

Robots 是网站和搜引擎之间的一个协议。用来防止搜索引擎抓取那些我们不想被索引到的页面或内容。早期是为了防止搜索引擎抓取网站的一些隐私页面,不想公开展示的页面,Robots 的作用已经不在局限于网页的隐私了,如今已经是作为学习 SEO 的一个最基础的范畴,能够有效提高网站的健康度、纯净度,降低网站垃圾内容收录

Robots协议是什么,Robots.txt的作用!

robots格式

User-agent:

是定义搜索引擎的,指定搜索引擎的爬取程序,如果想定义所有搜索引擎请用 * ,

记住他不能单独使用,他要配合前面两个语法使用(随便一个就行了)

Disallow:

是禁止搜索引擎抓取的路径。注意: / 表示根目录 (代表网站所有目录)。Disallow 禁止搜索引擎把我们的网页放出来,就是我们不允许搜索引擎收录,请记住是不允许搜索引擎收录,并不代表他不能爬取了。这是两个概念,他还是能爬的,他不是命令,他只是协议

Allow:

是允许的意思,但需要注意: 他的使用一般都是结合 Disallow 他不能单独出现,意思是禁止爬取那个内容,加上 Allow 后意思是,除了可以爬取这个外其余的都禁止!

robots.txt文件的作用

上面我们了解了robots协议。大概就能知道,搜索引擎访问会首先访问网站的robots.txt文件来获取抓取的内容,以及禁止抓取的内容。我们再平常交流中,很多站长都是想知道没有robots.txt文件对SEO有什么影响。下面就说说我的看法:

没有robots.txt的影响:

1、蜘蛛依然会抓取robots.txt,并返回404。这一点影响其实不大,但是绝对不能说是正面的影响

2、蜘蛛默认抓取所有内容。这一点影响大不大还是取决于网站的内容。如果存在很多低质量的内容,建议还是robots进行限制比较好

综上,还是建议站长加上,毕竟不是什么难事,至于怎么写,可以参考: