当前位置: 首页 > 专利查询>武汉大学专利>正文

一种针对网页结构变化的不间断爬虫系统构建方法技术方案

技术编号:10255575 阅读:369 留言:0更新日期:2014-07-24 22:47
本发明专利技术公开了一种针对网页结构变化的不间断爬虫系统构建方法,本发明专利技术在数据抽取的过程中,并不依赖于具体的标签节点,而是通过计算的方法来寻找目标节点;利用节点剪枝和相似哈希的方法锁定标题节点;然后,迭代计算相关节点的上下文主题相关度值TTR,得到目标抽取模块的节点;最后,使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取,在库匹配的过程中,使用了库动态增长的方法;同时,在目标抽取节点下的剩余节点中,过滤掉所有噪声节点,便得到网页文本的正文信息;本发明专利技术提供的技术方法主要应用于舆情监测系统中,对其他用途的网络爬虫具有一定参考价值。

【技术实现步骤摘要】

本专利技术涉及一种爬虫系统构建方法,具体的为一种针对网页结构变化的不间断爬虫系统构建方法
技术介绍
网络爬虫是各种搜索引擎能够实现的先驱技术,大数据时代的来临以及互联网技术的飞速发展,使得网络爬虫具有更重大的研究意义。应对网页数据量增幅大、网络文本更新周期短以及网页结构动态变化等一系列挑战,高效率且不间断工作的网络爬虫成为Web信息挖掘的研究热点。目前,网络爬虫基本上都是基于页面结构实现数据获取的。通过获取网页文档,将网页文档解析成DOM树的形式,根据DOM树的规则,HTML文档中的所有元素都用节点来表示。根据DOM树构建抽取规则,实现数据抽取。在数据抽取的过程中,由于网页信息源的异构性,为了不损失抽取精度,需要针对每个网站都构造相应的抽取规则。这样爬虫的覆盖率会十分低,极大地限制了网络资源获取的可能性。基于DOM树的网络页面获取技术能够提高数据获取的效率和系统资源利用率。但是,在数据抽取的时候会依赖该页面具体的标签节点,一旦对应的页面结构发生变化或者出现新的标签节点命本文档来自技高网...
一种针对网页结构变化的不间断爬虫系统构建方法

【技术保护点】
一种针对网页结构变化的不间断爬虫系统构建方法,其特征在于,包括如下步骤:步骤1,爬虫根据用户自定义数据抽取的入口地址,获取对应的HTML页面,并调用HTML解析器将HTML页面解析成DOM树;步骤2,构造一个网页节点剪枝器,对网页文档节点剪枝,过滤掉所有与正文无关的JavaScript、超链接以及CSS所在的节点;步骤3,抽取特定节点<title|TITLE>下的内容,计算该内容所有词的特征值,并映射为16位的信息指纹,根据相似哈希的计算方法计算该内容的相似哈希值T;然后,自上至下逐个对剪枝后的其他节点进行相同处理,获取对应的相似哈希值Ni;比对T与Ni,差值小于阈值的节点即为目标...

【技术特征摘要】
1.一种针对网页结构变化的不间断爬虫系统构建方法,其特征在于,包括如下
步骤:
步骤1,爬虫根据用户自定义数据抽取的入口地址,获取对应的HTML页面,
并调用HTML解析器将HTML页面解析成DOM树;
步骤2,构造一个网页节点剪枝器,对网页文档节点剪枝,过滤掉所有与正
文无关的JavaScript、超链接以及CSS所在的节点;
步骤3,抽取特定节点<title|TITLE>下的内容,计算该内容所有词的特征值,
并映射为16位的信息指纹,根据相似哈希的计算方法计算该内容的相似哈希值
T;然后,自上至下逐个对剪枝后的其他节点进行相同处理,获取对应的相似哈
希值Ni;比对T与Ni,差值小于阈值的节点即为目标抽取文本的标题节点;
步骤4,设定标题节点为起始节点,自底向上迭代计算各节点的上下文主题
相关度值TTR,找到TTR值最大的节点,该节点即为目标抽取模块节点;相关
度值TTR的计算公式为:
TTR(ni)=Conten...

【专利技术属性】
技术研发人员:刘金硕张智邓娟邓莹莹陈嘉敏彭映月李亚波徐亚渤
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1