【技术实现步骤摘要】
本专利技术涉及一种爬虫系统构建方法,具体的为一种针对网页结构变化的不间断爬虫系统构建方法。
技术介绍
网络爬虫是各种搜索引擎能够实现的先驱技术,大数据时代的来临以及互联网技术的飞速发展,使得网络爬虫具有更重大的研究意义。应对网页数据量增幅大、网络文本更新周期短以及网页结构动态变化等一系列挑战,高效率且不间断工作的网络爬虫成为Web信息挖掘的研究热点。目前,网络爬虫基本上都是基于页面结构实现数据获取的。通过获取网页文档,将网页文档解析成DOM树的形式,根据DOM树的规则,HTML文档中的所有元素都用节点来表示。根据DOM树构建抽取规则,实现数据抽取。在数据抽取的过程中,由于网页信息源的异构性,为了不损失抽取精度,需要针对每个网站都构造相应的抽取规则。这样爬虫的覆盖率会十分低,极大地限制了网络资源获取的可能性。基于DOM树的网络页面获取技术能够提高数据获取的效率和系统资源利用率。但是,在数据抽取的时候会依赖该页面具体的标签节点,一旦对应的页面结构发生变化或 ...
【技术保护点】
一种针对网页结构变化的不间断爬虫系统构建方法,其特征在于,包括如下步骤:步骤1,爬虫根据用户自定义数据抽取的入口地址,获取对应的HTML页面,并调用HTML解析器将HTML页面解析成DOM树;步骤2,构造一个网页节点剪枝器,对网页文档节点剪枝,过滤掉所有与正文无关的JavaScript、超链接以及CSS所在的节点;步骤3,抽取特定节点<title|TITLE>下的内容,计算该内容所有词的特征值,并映射为16位的信息指纹,根据相似哈希的计算方法计算该内容的相似哈希值T;然后,自上至下逐个对剪枝后的其他节点进行相同处理,获取对应的相似哈希值Ni;比对T与Ni,差值小 ...
【技术特征摘要】
1.一种针对网页结构变化的不间断爬虫系统构建方法,其特征在于,包括如下
步骤:
步骤1,爬虫根据用户自定义数据抽取的入口地址,获取对应的HTML页面,
并调用HTML解析器将HTML页面解析成DOM树;
步骤2,构造一个网页节点剪枝器,对网页文档节点剪枝,过滤掉所有与正
文无关的JavaScript、超链接以及CSS所在的节点;
步骤3,抽取特定节点<title|TITLE>下的内容,计算该内容所有词的特征值,
并映射为16位的信息指纹,根据相似哈希的计算方法计算该内容的相似哈希值
T;然后,自上至下逐个对剪枝后的其他节点进行相同处理,获取对应的相似哈
希值Ni;比对T与Ni,差值小于阈值的节点即为目标抽取文本的标题节点;
步骤4,设定标题节点为起始节点,自底向上迭代计算各节点的上下文主题
相关度值TTR,找到TTR值最大的节点,该节点即为目标抽取模块节点;相关
度值TTR的计算公式为:
TTR(ni)=Conten...
【专利技术属性】
技术研发人员:刘金硕,张智,邓娟,邓莹莹,陈嘉敏,彭映月,李亚波,徐亚渤,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。