并不是所有的搜索引擎都遵守robots.txt

2020-12-24 08:56:27  14 浏览  0 评论   赞

下面这段代码:允许GG 百度、ALEXA 抓取,屏蔽了其他一切引擎,但实际上这种方法并不能完全屏蔽SOSO YAHOO MSN之类的爬虫

并不是所有的搜索引擎都遵守robots.txt

图2459-1:

 我们都知道robots.txt文件是搜索引擎遵守的一个抓取协议,但是是不是真的有效果呢?

搜索引擎真的会遵循这个协议吗?

让我们首先来看看

下面这段 [这是我南昌SEO站点的robots.txt设置:允许GG 百度、ALEXA 抓取,屏蔽了其他一切引擎禁止!]

User-agent:Googlebot

Disallow:

User-agent:baiduspider

Disallow:

User-agent:ia_archiver

Disallow:

User-agent:*

Disallow:/

从理论上来说 这样的设置就屏蔽了其他一切引擎,但实际上这种方法并不能完全屏蔽SOSO YAHOO MSN之类的爬虫,在YAHOO上输入site:www.seo-jx.cn还是可以看到内容以及索引的!

遵守robots协议与否当然是由他们自己说了算的!所以要想完全屏蔽搜索引擎的爬虫,需要在.htaccess中加入限制语句才行,这里我们介绍2种最简单的方法:

1:

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} ^MSNBOT [NC]

RewriteRule .* - [F]

 

2:

SetEnvIfNoCase User-Agent "^MSNBOT" bad_bot

<Limit GET POST>

Order Allow,Deny

Allow from all

Deny from env=bad_bot

</Limit>

注:MSNBOT 为MSN蜘蛛机器人代码 ,如果想要真正屏蔽某个搜索引擎 把其中的红色部分[MSNBOT]

换成你想要屏蔽的蜘蛛机器人代码即可!

请不要随意添写 否则造成损失与本人无关!

 

转载请注明:网创网 www.netcyw.cn/b2459.html

赞 ()
发表评论
  • 昵称
  • 网址
(0) 个小伙伴发表了自己的观点
    暂无评论

Copyright © 2018-2019 小王子工作室 版权所有 滇ICP备14007766号-3 邮箱:yangzy187@126.com