无意中发现的一个百度蜘蛛抓取页面的方式

 2021-04-22 17:35:33  373 浏览  0 评论   赞

从上面的分析可以看出,百度蜘蛛爬行有时是不按我们的常规思考进行的,它会通过各种方法进入你的数据库,抓取内容,而非与网站前台的种种限制能阻挡

无意中发现的一个百度蜘蛛抓取页面的方式

图8769-1:

前段时间seowhy开启未登陆用户禁止访问论坛的权限,让我想到的是,如果用户未登陆不能查看帖子,那百度蜘蛛能否索引到内容呢,我简单的理解为百度蜘蛛的爬行其实就是顺着网站中的锚文本链接爬行,然后形成一张大网,但如果论坛禁止未登陆用户访问,那么蜘蛛爬行的链接就是死链,就抓取不到内容,发帖就没有效果,其实我的想法是错误的,百度蜘蛛其独特的爬行机制不是我们想象的那么简单。

前日(10月22日),我修改公司网站的数据库,而后测试发布了一篇以“啊啊”为标题、内容的信息,前台并没有生成页面,也就是说这篇文章只有数据库中存在,前台没有它的一点信息(因为我有数据库洁癖,为了不让文章ID错乱,想着不用删除,等第二天更新文章修改掉就行,反正也没生成页面),第二天(10月23日),我把这条测试文章修改了,又发不了一篇新的文章,等待收录查看快照是这样的。

修改的那篇文章是22日的快照,新发布的正常,22日时是“啊啊”的内容,但点击百度快照进去发现是新的内容,让我又想到,难道百度收录文章的快照与文章更新的时间有关系?于是,今天(10月24日)我又更新了两篇文章,然后进数据库把一片文章的发布时间改为昨天,等待收录。

同一时间发布的两篇文章变成了上面的收录展示形式,可见22日发布的那篇文章其实当天就收录了,只是蜘蛛可能知道内容不是用户要发布的所以一直没放出,23日修改内容后,前台更新,蜘蛛顺着链接爬行到这个网站知道内容是真正内容了,就替换了22日的收录并放不来,但快照没有修改,至于今天发布的两偏文章展示不一样,都只是暂时的,你明天查看,都会变成24日快照,没有什么不同,只不过今日查看一个显示详细收录时间,一个显示当天。

从上面的分析可以看出,百度蜘蛛爬行有时是不按我们的常规思考进行的,它会通过各种方法进入你的数据库,抓取内容,而非与网站前台的种种限制能阻挡,除非你用robots文件来限制,seowhy虽屏蔽未登陆用户访问,但其实百度蜘蛛是可以抓取到内容的,因为它与我们用户的访问方法不一样。至于文章的发布时间,一定程度上会影响文章收录的快照,但不是绝对。

 

转载请注明:网创网 www.netcyw.cn/b8769.html

()
发表评论
  • 昵称
  • 网址
(0) 个小伙伴发表了自己的观点
    暂无评论

Copyright © 2018-2022 小王子工作室 版权所有 滇ICP备14007766号-3 邮箱:yangzy187@126.com