搜索引擎的基本工作:抓取、索引和检索

2021-04-29 15:25:50  16 浏览  0 评论   赞

抓取和索引:分析页面代码,选择有用的内容,把它们储存起来;提供搜索结果:当用户进行查询的时候,搜索引擎会在自己的数据库中寻找用户想要的信息

搜索引擎的基本工作:抓取、索引和检索

图9402-1:

搜索引擎具有四个功能:抓取、建立索引数据库、计算相关度并得出排名、以及提供索引的结果。搜索引擎抓取并索引数以亿计的网页、文件、新闻、图片、视频等内容,当搜索者提出一个搜索需求的时候,搜索引擎会把索引的结果按照相关性排列起来,提供给搜索者。

1、抓取和索引

互联网就像是一个庞大的城市地铁系统,网站和网站里的页面(也可能是pdf文件、jpg图片等)就像地铁系统里的站点,为了让列车可以到达每一个站点,在地铁系统里就需要有不同的线路把站点连接起来,而在互联网中连接不同网站或者网站中不同页面的线路正是链接。

服务器中的链接结构把网站里所有的页面联系到了一起,或者至少保证了搜索引擎能够到达所有的页面。有了这些链接,搜索引擎机器人(或者叫做“爬虫”、“蜘蛛”)就可以到达网站的每一个角落了。

一旦搜索引擎找到这些页面,它们下一项工作就是分析页面代码,选择有用的内容,把它们储存起来,当用户提出搜索请求时,再将结果提供给用户。为了能够在最短的时间内,为用户提供符合搜索需求的内容,搜索引擎公司在全世界建立了数量繁多的大型数据库,用来储存搜索引擎蜘蛛抓取到的网站(网页)内容。当用户使用搜索引擎搜索的时候,延时、即使这种延时只有3、4秒,也会造成用户很大的不满,所以,主流的搜索引擎公司都把快速提供结果作为自己的重中之重。

2、提供搜索结果

当用户使用搜索引擎进行查询的时候,搜索引擎会在自己的数据库中寻找用户想要的信息,在这个时候搜索引擎会做两件事情,一是,把对用户有用的、与搜索查询相关的结果提供给用户,二是,把这些结果按照重要性进行排序。这两点(相关性和重要性)恰巧就是网站在搜索引擎优化中需要重视的。

对于搜索引擎来说,相关性不仅仅意味着在页面上把用户搜索的词突出显示。在互联网诞生的早期,搜索引擎只是把用户搜索的内容加粗或者高亮显示,随着技术的发展和进步,杰出的工程师们找到了更多更好的方法,可以向用户提供更有价值的搜索结果。如今,影响相关性的因素越来越多,在后面我们会详细地介绍。

虽然影响相关性的因素多达数百个,但是相关性仍然难以量化,而另一个影响搜索结果排名的要素——重要性,同样是一个难以量化的指标,尽管难以量化,搜索引擎还是要努力去做这件事情。

最近,主流的搜索引擎公司喜欢用声望、口碑来衡量一个网站或网页的重要性。网站在用户心目中的地位越高、口碑越好,提供的内容和信息越有价值,那这个网站在搜索引擎看来就越重要。从实际情况来看,用声望和口碑来判断网站的重要与否是比较成功的。

搜索引擎对于网站重要性和相关性的判断并不是依靠人工进行的,如果人工进行判断的话,工作量将会非常巨大。在这方面,搜索引擎有着自己的一套评分标准,我们称之为“算法”,在搜索引擎算法中,包含了数百个变量,也就是我们通常所说的影响排名的因素。

 

转载请注明:网创网 www.netcyw.cn/b9402.html

赞 ()
发表评论
  • 昵称
  • 网址
(0) 个小伙伴发表了自己的观点
    暂无评论

Copyright © 2018-2019 小王子工作室 版权所有 滇ICP备14007766号-3 邮箱:yangzy187@126.com