岳阳网站建设之搜索引擎HITS算法是怎样的?

2020-12-28

  岳阳网站建设之搜索引擎HITS算法是怎样的?百度等搜索引擎的算法更新变得越来越频繁,很多网站的关键词排名也变得浮动起来。但是你知道他们为什么这么频繁地改变算法吗?不是想完善算法那么简单吗?核心算法已经成熟,我们来谈谈HITS算法。

岳阳网站建设之搜索引擎HITS算法是怎样的

  HITS算法是网络结构挖掘中权威和广泛使用的算法。其基本思想是利用页面之间的引用链,挖掘其中隐藏的有用信息(如权威),具有计算简单高效的特点。HITS算法通过两种评价权值-内容权威度和链接权威度来评价网页的质量。

  内容权威度与网页本身直接提供内容信息的质量有关,引用的网页越多,关于网站建设设计,内容权威度越高的链接权威度与网页提供的超链接网页的质量有关,引用的高质量网页越多,链接权威度越高。

  HITS算法认为,在评页面都应该分别考虑内容的权威性和链接的权威性,在评价页面内容的权威性的基础上评价页面的链接的权威性,进行该页面的综合评价。但HITS算法也有明显的不足。

  首先,完全排除网页的内容和文本,只考虑网页之间的链接结构,分析网页的权威性,与现实网络的权威网页相比,不科学。因为权威页面必须对某个主题和关键词来说。一个页面对一个确定主题的权威性的页面,并不意味着其他与主题无关的页面也有权威性。

  其次,一个页面对另一个页面的引用有很多种情况,其中包括一个页面对另一个页面的认可,但此外还有其他目的链接,如导航或收费广告。HITS算法在实现过程中没有考虑上述情况,导致结果和目标之间的差距。对HITS算法的思想和实现过程进行了详细的研究和概括。

  针对以前的靠前个不足,有关学者提出了利用超链接文字及其周围文字与关键字一致计算超链接权值的方法,引入系数相对控制周围文字和超链接文字,将页面文字信息引入HITS算法,提高算法的可靠性,在现实中取得了良好的效果。

岳阳网站建设之搜索引擎HITS算法是怎样的

  对HITS算法的第二个不足,即非正常目的的引用。在HITS算法中,也误认为是正常引用,导致实际结果和目标的差异。后来,经过不断改进。HITS算法还引入了时间参数。也就是说,利用对一链接引用时,询问长度,评价是否为正常引用。非正常链接引用时不长(交换链接、广告链接等),相反,一页对另一页的链接时间长,关于企业网站模板,必然反映该页是用户的搜索页。也就是说,目标页面或至少是正常引用。

  假如设定时间阀值,能够在HITS算法实现过程中筛选出非正常引用的链接。如果设定访问时间少于1分钟,则为非正常引用。此外,可以结构时间访问函数,控制权威页面的相对大小。随着访问时间的增加,权威性也逐渐非线性增加。这可以为HITS算法的权威页面提供更合理、更科学的说明。链接的稳定性,在外链接的建设中占有非常重要的地位。链接越稳定,对排名的帮助就越大。

  从HITS算法的这些特征可以看出,各大搜索引擎为什么每隔一段时间更新算法。


免费使用