【技术实现步骤摘要】
基于DOM树和行列分割的Web内容信息提取方法
本专利技术涉及数据挖掘领域,具体涉及一种基于DOM树和行列分割的Web内容信息提取方法。
技术介绍
随着Internet和Web技术的飞速发展,网页已成为信息发布的主要载体。网页是由信息块和非信息块组成,信息块是由网页的主要内容块组成,只有这些才包含想要的信息。非信息块诸如导航菜单、底部的联系人信息、广告以及一些与网页主题无关的装饰组件,都是噪声信息。要想提高信息提取的性能,必须要去除这些噪声信息,并快速准确地对网页进行分割,从而获得组成块并对其进行准确的提取。因此如何更好的去除这些噪声并且准确提取这些信息块成为当前研究的热点。现有的网页信息抽取的方法可以分为四类:基于包装器和启发式规则的信息提取方法,基于文本特征的信息提取方法,基于视觉分块的信息提取方法,基于统计和机器学习的信息提取方法。(1)基于包装器和启发式规则的信息提取方法。该方法是一种早期且流行的方法,后续的Web模板提取技术也属于这一类。其原则是通过构造包装器或Web模板规则从Web信息源中提取符合 ...
【技术保护点】
1.一种基于DOM树和行列分割的Web内容信息提取方法,其特征在于:所述包括如下步骤:/n1)视觉特征去噪;/n经过查看网页发现,大量的网页都是由head、foot、left、right、center五部分或者其中某几部分组成,其中大多数的网页均含有head、foot区域,right、left区域选择性拥有,通过视觉特征,去除上下左右部分;/n2)正则表达式去噪;/n在初步获取的正文文本中,可能仍包含利用视觉特征未去除的噪声信息,这些区域中的元素作为正文包含其中,需要通过正则表达式过滤的方式再次去除网页噪声信息;/n3)生成一个新的网页视觉树;/n网页预处理之后,将网页转换 ...
【技术特征摘要】
1.一种基于DOM树和行列分割的Web内容信息提取方法,其特征在于:所述包括如下步骤:
1)视觉特征去噪;
经过查看网页发现,大量的网页都是由head、foot、left、right、center五部分或者其中某几部分组成,其中大多数的网页均含有head、foot区域,right、left区域选择性拥有,通过视觉特征,去除上下左右部分;
2)正则表达式去噪;
在初步获取的正文文本中,可能仍包含利用视觉特征未去除的噪声信息,这些区域中的元素作为正文包含其中,需要通过正则表达式过滤的方式再次去除网页噪声信息;
3)生成一个新的网页视觉树;
网页预处理之后,将网页转换成DOM树结构,在此基础上,自下向上遍历中生成一个新的网页视觉树,在遍历过程中,为了提高处理效率,利用视觉特征和正则表达式去除那些噪声节点,对通常不含正文文本内容的标签做剪枝处理,得到一个简洁的DOM树,并为新的视觉树中每个提取的节点分配一个判断符:即为每个节点标记两个布尔型变量,代表其子树中是否存在列拆分;
4)识别组成块;
本发明从视觉树对应的根节点展开新的可视化树,首先需要判断是否进行了列拆分,如果当前节点的子节点有子树,即进行列拆分,则增加一个粒度,继续扩展当前节点的子节点;如果当前子树只有行拆分,则不进行扩展,如此重复进行上述操作,当整个树不再进行扩展时,所有的叶节点都是预期的组成块,本发明是基于列拆分,初始分区粒度值从1开始,通过上述过程,就可以获得网页的所有组成块;
5)提取信息块;
本发明使用两个启发式规则通过加权平均来获得信息块的分数,分数最大的组成块即信息块,启发式规则如下:
R1、信息块通过上述过程后是标记数最多的块;
R2、信息块是所有块中面积最大的块。<...
【专利技术属性】
技术研发人员:陈壮,葛斌,刘威,蔡威林,邰悦,李涵,张延,张宁,
申请(专利权)人:安徽理工大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。