教你如何书写robots.txt文件

2021-04-20 16:25:38  18 浏览  0 评论   赞

我们先来理解User-agent和Disallow的定义。国内建站需要用到的常见搜索引擎robot的名称;文件基本常用写法:允许所有的robots访问,无任何限制

教你如何书写robots.txt文件

图8448-1:

关于这个robots.txt正确的写法,蛋疼博客-老林参考了很多作者的写法、还有百度的文献,发现有的作者解释或者写法太过简单,造成新手不易理解,当然蛋疼博客-老林也不敢保证百分百解释得让你很明白。

robots.txt是以什么形式存在?robots.txt就是一份网站和搜索引擎双方签订的规则协议书。每一个搜索引擎的蜘蛛访问一个站点时,它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在,蜘蛛就会按照该协议书上的规则来确定自己的访问范围;如果没有robots.txt,那么蜘蛛就会沿着链接抓取。

请牢牢记住:robots.txt必须放置在站点的根目录下,而且文件名必须全部小写。Disallow后面的冒号必须为英文状态的。

我们先来理解User-agent和Disallow的定义。

● User-agent:该项用于描述搜索引擎蜘蛛的名字。(1)规定所有蜘蛛:User-agent:*;(2)规定某一个蜘蛛:User-agent:BaiduSpider。

● Disallow:该项用于描述不希望被抓取和索引的一个URL,这个URL可以是一条完整的路径。这有几种不同定义和写法:(1)Disallow:/AAA.net,任何以域名+Disallow描述的内容开头的URL均不会被蜘蛛访问,也就是说以AAA.net目录内的文件均不会被蜘蛛访问;(2)Disallow:/AAA.net/则允许robots抓取和索引AAA.net/index.html,而不能抓取和索引AAA.net/admin.html;(3)如果Disallow记录为空,说明该网站的所有部分都允许被访问。在robots.txt文件中,至少应有Disallow记录,如果robots.txt为空文件,则对所有的搜索引擎robot来说,该网站都是开放的。

1、国内建站需要用到的常见搜索引擎robot的名称。

有时候我们觉得网站访问量(IP)不多,但是网站流量为什么耗的快?有很多的原因是垃圾(没有)蜘蛛爬行和抓取消耗的。而网站要屏蔽哪个搜索引擎或只让哪个搜索引擎收录的话,首先要知道每个搜索引擎robot的名称。

2、robots.txt文件基本常用写法:

首先,你先建一个空白文本文档(记事本),然后命名为:robots.txt。

(1)禁止所有搜索引擎访问网站的任何部分。

user-agent: *

disallow: /

(2)允许所有的robots访问,无任何限制。

user-agent: *

Disallow:

或者

user-agent: *

allow: /

还可以建立一个空文件robots.txt或者不建立robots.txt。

(3)仅禁止某个搜索引擎的访问(例如:百度baiduspider)

user-agent: BaiduSpider

Disallow:/

(4)允许某个搜索引擎的访问(还是百度)

user-agent: BaiduSpider

Disallow:

user-agent: *

disallow: /

这里需要注意,如果你还需要允许谷歌bot,那么也是在“user-agent: *”前面加上,而不是在“User-agent: *”后面。

(5)禁止Spider访问特定目录和特定文件(图片、压缩文件)。

user-agent: *

disallow: /AAA.net/

disallow: /admin/

disallow: .jpg$

disallow: .rar$

这样写之后,所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明,而不要写出“disallow:/aaa.net/ /admin/”。

 

转载请注明:网创网 www.netcyw.cn/b8448.html

赞 ()
发表评论
  • 昵称
  • 网址
(0) 个小伙伴发表了自己的观点
    暂无评论

Copyright © 2018-2019 小王子工作室 版权所有 滇ICP备14007766号-3 邮箱:yangzy187@126.com