网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。
拓扑分析算法,基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法,又分为网页粒度、网站粒度和网页块粒度这三种。
网页(Webpage)粒度的分析算法,PageRank和HITS算法是最常见的链接分析算法,两者都是通过对网页间链接度的递归和规范化计算,得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在,但忽略了绝大多数用户访问时带有目的性,即网页和链接与查询主题的相关性,针对这个问题,HITS算法提出了两个关键的概念:权威型网页(authority)和中心型网页(hub)。
网站粒度的分析算法,网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算,SiteRank的计算方法与PageRank类似,但是需要对网站之间的链接作一定程度抽象,并在一定的模型下计算链接的权重,网站粒度的资源发现和管理策略也比网页粒度的更简单有效。
网站划分情况分为按域名划分和按IP地址划分两种:讨论了在分布式情况下,根据不同文件在各个站点上的分布情况,构造文档图,结合SiteRank分布式计算得到DocRank。通过对同一个域名下不同主机、服务器的IP地址进行站点划分,构造站点图,利用类似PageRank的方法评价SiteRank。
网页块粒度的分析算法,在一个页面中,往往含有多个指向其他页面的链接,这些链接中只有一部分是指向主题相关网页的,或根据网页的链接锚文本表明其具有较高重要性,但是,在PageRank和HITS算法中,没有对这些链接作区分,因此常常给网页分析带来广告等噪声链接的干扰。通过实验证明,效率和准确率都比传统的对应算法要好,在网页块级别(Block?level)进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block),然后对这些网页块建立链接矩阵。
以上,就是关于网页分析算法类型的相关介绍,你明白了吗?下篇文章,小编会介绍一下关于网页分析算法的其他相关知识,持续关注一下吧。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-21 11:29:23
2022-11-25 14:32:52
2022-11-21 15:50:18
2020-04-29 17:05:05
2020-04-29 17:18:03
甄选10000+数字化产品 为您免费使用
申请试用
评论列表