搜索引擎的原理之关键词相关性计算

2021-04-01 14:40:01  15 浏览  0 评论   赞

找到包含这些页面后,还不能进行相关性计算,因为这些页面多的吓人,如果显示一百页,并且每页显示十条的话,这样就只要计算1000个结果的相关性

搜索引擎的原理之关键词相关性计算

图7272-1:

今天开始讲排名,上次说到经过倒排索引,每一个关键词对应一系列的页面,用户在搜索时填入关键词后,排名程序就调用它,计算排名再显示给用户,排名过程是与用户直接互动的。搜索引擎接收到用户输入的搜索词,需要对搜索词做一些处理,才能进入排名过程。这里有一个过程跟之前的页面索引是一样的,那就是中文分词,搜索词也必须进行中文分词,将查询字符串转换为以词为基础的关键词组合,分词的原理跟页面分词是一样的,这里就不详细说了。

搜索词进行处理后,搜索引擎得到的是以词为基础的关键词集合,所以需要进行匹配,前面已经讲过每一个关键词对应一系列的页面,当然就是有这些关键词的页面,比如搜索“张家港弯管机”,那分词分为“张家港” “弯管机”这两个词的话,只要找到这两个词页面的交集就可以了,简单的说就是都包含这两个关键词的页面,也就是页面12为了方便理解,我划了个表格。

关键词1 页面1, 页面3,页面8,。。。页面N 关键词2 页面11, 页面13,页面18,。。。页面N 张家港 页面6, 页面8,页面12,。。。页面N 弯管机 页面2, 页面12,页面18,。。。页面N 关键词Y 页面13, 页面23,页面38,。。。页面N

找到包含这些页面后,还不能进行相关性计算,因为这些页面多的吓人,这样需要的时间就非常长,所以一般显示出来的也就一百页左右,如果每页显示十条的话,这样就只要计算1000个结果的相关性,这1000条结果就是按权重大小选取的。所以说网站的权重是非常重要的,权重不高是没有机会获得排名的。

得出这1000条结果后,然后就要进行相关性计算了,影响相关性的主要因素有哪些呢:

1.关键词的常用程度,越常用的词对搜索词的意义越小,这个用个例子来说吧,比如用输入“我们站长” “我们”这个词的常用程度非常高,“站长”这个词的常用程度就小,这样的话如果A,B两个页面,A页面的“我们”只是出现在了普通文字中,“站长”却在标题中,而B页面正好相反的话,那A页面的相关性就比B页面高,这样好理解了吧。

2.关键词的密度,在不堆积关键词的前提后,关键词密度越高,相关性越高,但现在的重要程序越来越低了,所以保持一定的关键词密度就可以了,一般在2%~8%之间。

3.关键词的位置及形式,页面关键词出现的格式如标题,黑体,H1等,说明页面与关键词越相关。

4.关键词距离,这个很容易理解,比如“我们站长”这个关键词,如果连续出现,当然是最相关的,但“我们小站长”要比“我们全部站长”相关性要高,因为距离近嘛。

5.链接分折及页面权重,这个不多说了,权重越高越好,内链,外链,要做好,就OK啦。

相关性计算好以后,再经过一些小调整就可以了,整个搜索引擎工作原理就讲到这里,这里只是讲了一些重点,明天有空的话想单独讲一下链接原理,因为这里面有好多东西要讲的。

 

转载请注明:网创网 www.netcyw.cn/b7272.html

赞 ()
发表评论
  • 昵称
  • 网址
(0) 个小伙伴发表了自己的观点
    暂无评论

Copyright © 2018-2019 小王子工作室 版权所有 滇ICP备14007766号-3 邮箱:yangzy187@126.com