相关性,是搜索引擎优化中的重点。但是关于相关性的搜索引擎任务原理,相信绝大多数SEOER都缺乏了解。但作为职业SEO关于搜索引擎算法的研讨是必要的,虽然不可能知道搜索引擎算法的全部。但是只需要我们主流搜索引擎技术的方向,你就可以知道搜索引擎时代的脉搏。
相关度排序技术的发生主要是由搜索引擎的特点决定的。现阶段的相关度排序技术主要有以下几种:

      一是基于传统信息检索技术的方式,它主要利用关键词本身在文档中的重要程度来对文档与用户查询要求的相关度做出测量,如利用网页中关键词出现的频率和地位。一般而言,检索出的网页文档中含有的查询关键词个数越多,相关性越大,并且此关键词的区分度越高;同时,查询关键词如果出如今诸如标题字段等重要地位上,则比出如今注释的相关度要大。二是超链分析技术,运用此技术的代表性搜索引擎有Google和Baidu等。和前者相比,它以网页被认可的重要程度作为检索结果的相关度排序依据。从设计思想上看,它更注重第三方对该网页的认可,如具有较大链入网页数的网页才是失掉普遍认可的重要网页,而依据关键词地位和频率的传统方法只是一种网页自我认可的方式,缺乏客观性。最后还有一些其他方式,如由用户自由定义排序规则的自定义方式。再如收费排名模式,它作为搜索引擎的一种主要赢利手段,在具有网络门户特点的大型搜索引擎中广为运用,但于担心影响搜索结果的客观性,这种方式不是它们的主流排序方式,而仅仅作为一个补充显示在付费搜索栏目中。

      相关度排序技术主要依赖于超链分析技术实现。超链分析技术可以提供多种功能,其中主要功能就是解决结果网页的相关度排序效果。它主要是利用网页间存在的各种超链指向,对网页之间的援用关系进行分析,依据网页链人数的多少计算该网页的重要度权值。一般认为,如果A网页有超链指向B网页,相当于A网页投了B网页一票,即A认可了B网页的重要性。深化理解超链分析算法,可以依据链接结构把整个Web网页文档集看成一个有向的拓扑图,其中每个网页都构成图中的一个结点,网页之间的链接就构成了却点间的有向边,按照这个思想,可以依据每个结点的出度和入度来评价网页的重要性。

      关于超链分析技术,有代表性的算法主要是Page等设计的PageRank算法和Kleinberg发明的HITS算法。其中,PageRank算法在实践运用中的效果要好于HITS算法,这主要是由于以下原因:首先,PageRank算法可以一次性、脱机且独立于查询的对网页进行预计算以失掉网页重要度的估量值,然后在详细的用户查询中,结合其他查询目的值,一起对查询结果进行相关性排序,从而节省了零碎查询时的运算开销;其次,PageRank算法是利用整个网页集合进行计算的,不像HITS算法易遭到局部链接陷阱的影响而发生主题漂移景象,所以如今这种技术普遍地运用在许多搜索引擎零碎中,Google搜索引擎的广获成功也标明了以超链分析为特征的网页相关度排序算法日益成熟。

     PageRank技术基于一种假设,即关于Web中的一个网页A,如果存在指向网页A的链接,则可以将A看成是一个重要的网页。PageRank认为网页的链入链接数可以反映网页的重要程度,但是由于现实中的人们在设计网页的各种超链时往往并不严格,有很多网页的超链是为了诸如网站导航、商业广告等目的而制造,这类网页关于它所指向网页的重要程度奉献程度并不高。由于算法的复杂性,PageRank没有过多考虑网页超链内容对网页重要度的影响,只是运用了两个相对复杂的方法:其一,如果一个网页的链出网页数太多,则它对每个链出网页重要度的认可能力降低;其二,如果一个网页由于本身链入网页数很低形成它的重要程度降低,则它对链出网页重要度的影响也相应降低。所以,在实践计算中,网页A的重要性权值正比于链入网页A的重要性权值,并且和链入网页A的链出网页数量呈正比。由于无法知道网页A本身的重要性权值,所以决定每个网页的重要权值需要反复迭代地进行运算才能失掉。也就是说,一个网页的重要性决定着同时也依赖于其他网页的重要性。