本文,会向大家简单介绍一下网络爬虫如何基于目标网页特征进行抓取信息的,那小编就不说什么废话了,让我们直接上干货。
聚焦网络爬虫,即FocusedCrawler。又称主题网络爬虫,即TopicalCrawler。是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。
网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在,抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。这两个部分的算法又是紧密相关的,现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。
网页特征可以是网页的内容特征,也可以是网页的链接结构特征,基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页,根据种子样本获取方式可分为:预先给定的初始抓取种子样本;预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;通过用户行为确定的抓取目标样例,分为:用户浏览过程中显示标注的抓取样本;通过用户日志挖掘得到访问模式及相关样本。
为了提高爬行速度,网络通常会采取并行爬行的工作方式,随之引入了新的问题:重复性,即并行运行的爬虫或爬行线程同时运行时增加了重复页面。质量问题,即并行运行时,每个爬虫或爬行线程只能获取部分页面,导致页面质量下降,通信带宽代价,即并行运行时,各个爬虫或爬行线程之间不可避免要进行一些通信。并行运行时,网络爬虫通常采用三种方式:独立方式,即各个爬虫独立爬行页面,互不通信。动态分配方式,即由一个中央协调器动态协调分配URL给各个爬虫。静态分配方式,即URL事先划分给各个爬虫。
小伙伴们都懂了吗?如果还不太明白的的话,可以先去看看小编之前关于网络爬虫的知识街上的相关文章哦。
更多产品了解
欢迎扫码加入云巴巴企业数字化交流服务群
产品交流、问题咨询、专业测评
都在这里!
2022-11-21 11:20:52
2022-11-22 15:15:49
2022-11-21 14:46:17
甄选10000+数字化产品 为您免费使用
申请试用
评论列表