当前位置: 首页 > 专利查询>浙江大学专利>正文

基于树权值的网页数据记录识别和抽取方法技术

技术编号:7590665 阅读:301 留言:0更新日期:2012-07-21 03:35
本发明专利技术公开了基于树权值的网页数据记录识别和抽取方法,包括如下步骤:?网页处理和转化;数据记录识别;数据记录对准和抽取;数据存储;根据HTML网页的内容的树结构特点,通过对抓取到的网页进行处理转化为标签树结构,自底而上的为每个树节点赋上权值,使得不同层次的节点具有不同的权值,然后根据相似子树集和位置连续性来识别出数据记录区域,然后根据包含数据记录的标签树集进行树对准操作生成基准树作为抽取模板,可以得到高效率和高准确度的结果。

【技术实现步骤摘要】

本专利技术涉及信息抽取领域,尤其涉及。
技术介绍
随着互联网信息在时间度量下的发展呈指数级增长,网页中包含着越来越多人们感兴趣的资源和信息,但是伴随着信息量增大,信息的查找开始变得困难。由于信息的无序性,我们只能采用“全文检索”来查找所需的信息,但是包含所需信息的各类网页中充斥着大量的广告和链接等无关信息,使得我们无法快速且直观的获取到我们需要的有用信息, 而当前依赖于人工获取信息的方式效率低下,用户所需的信息往往需要从多个不同的信息源获得,由于包含这些信息的不同网站存在结构上的差异性,要获取需要的信息必须以人工的方式对不同的网站进行查询分析处理,最后将结果组织成需要的格式保存到数据库中以供后续服务使用,这个过程是繁琐的,而且效率也很低下。因而如何能够准确高效的从海量HTML文档中抽取出用户感兴趣的内容变得越来越重要,正是在这种背景下被提出来的。网页信息抽取技术是信息抽取技术在互联网应用领域的一个用例。网页信息抽取是将分布在互联网上的海量的结构化,半结构化或者自由的HTML文本中的特定信息抽取出来,并转换为统一的结构化表现形式。互联网网页信息抽取有别于传统信息抽取的特点, 具有海量数据、结构差异性、动态变化性、非结构化数据、语义信息缺乏。网页信息抽取中负责将信息从网页中抽取出来的程序被上被称为包装器 (Wrapper),它是从半结构化HTML文本中抽取信息并转化为统一的结构化信息后存储起来的程序。它将信息抽取自动化,对面向海量的网页信息时特别有用。根据生成方法的原理可以分为机器方法、自然语言理解方法、本体方法、HTML方法等等。基于HTML结构特征的方法是目前网页信息抽取技术中研究的最多的,也是发展的最好的技术方法。基于HTML结构特征的方法充分利用了 HTML文本所具有的结构特征来进行数据抽取。在数据抽取之前, 先将HTML文本转换为一个对应的标签树,然后通过自动或者半自动的方式生成抽取规则, 并将规则应用于标签树上进行数据抽取。当然,在这种方法的研究上也存在着一些问题,如下I.现在的研究大多是将网页中全部的HTML文本对应的标签树作为模板,这显然是低效率的,而且实际上很多的文本节点也可能包含HTML标签,比如文本节点中的很多文本会带有颜色或字体等装饰性标签,还有一些文本具有超文本链接,而内容中也可能包含图片和表格等,这些都属于无关信息。2.有一些文本节点在网页集中是重复出现的,这些节点不应该被作为关键内容抽取,而是应该作为模板的一部分。3.对于现存抽取方法中描述的树比较方法,抽取的对象网页集一般是小规模的, 对于大规模而言,效率会很低下。44.对于页面的结构比较方式通常需要两个页面以上,如果只有单一页面则无法抽取出模板。这几个方面没有被考虑是由于网页的复杂和海量这两个特征决定的,要在这样复杂而海量的网页集中保证抽取准确率和召回率都有较高的结果的同时,在抽取时间上也要确保有较快的速度,这在实际操作中是十分必要的。因而对于一个高准确度和高效率的网页内容提取方法是迫切需要的。
技术实现思路
本专利技术主要针对现有的网页数据识别和抽取方法准确度和效率低,不能有效的在大量网页抽取出需要的信息;提出,根据HTML 网页的内容的树结构特点,通过对抓取到的网页进行处理转化为标签树结构,自底而上的为每个树节点赋上权值,使得不同层次的节点具有不同的权值,然后根据相似子树集和位置连续性来识别出数据记录区域,然后根据包含数据记录的标签树集进行树对准操作生成基准树作为抽取模板,可以得到高效率和高准确度的结果。为了解决上述技术问题,本专利技术的技术方案如下I.,包括如下步骤(I)网页处理和转化;(2)数据记录识别;(3)数据记录对准和抽取;(4)数据存储;所述网页处理和转化包括如下步骤11)对抓取的网页依据标签的作用进行分类后构造标签树;12)对所述标签树的每个树节点按照如下公式赋予权值权利要求1.,其特征在于,包括如下步骤(1)网页处理和转化;(2)数据记录识别;(3)数据记录对准和抽取;(4)数据存储;所述网页处理和转化包括如下步骤11)对抓取的网页依据标签的作用进行分类后构造标签树;12)对所述标签树的每个树节点按照如下公式赋予权值2.根据权利要求I所述的,其特征在于, 所述步骤11)通过标签的作用将HTML的标签分为三类第一为规划网页布局的标签其提供内容信息区域的标签;第二为描述显示特点的标签其包含内容显示方式的标签;第三为超链接相关的标签。3.根据权利要求I所述的,其特征在于, 在采用步骤12)对每个树节点赋予权值之前,对网页进行除噪,所述除噪步骤为对标签树进行修剪,包括将叶子节点标签设为无关标签、相邻文本或图片节点的父节点标签设为无关标签、无兄弟的文本或图片节点的父节点标签为无关标签。4.根据权利要求I所述的,其特征在于, 所述步骤13)对于数据记录识别需要对标签树进行比较来判断其相似程度,采用的比较方法为如果标签树Tl的子树集里与标签树T2的子树集里存在权值相等的交集,满足存在大于阀值K的子树且权值相等子树集必须存在顺序关系,即W] = = ff]且 W] = = ff]时,当且仅当i <= k时j <= t,则设标签树Tl和标签树T2相似。5.根据权利要求I所述的,其特征在于, 所述步骤14)所述插入操作的插入位置通过如下步骤确定如果节点序列TiU]. . . TiDn]在标签树Ti的共同父节点下有2个相邻兄弟节点,一个在最左边,一个在最右边,这两个兄弟节点都在基准树Tb下有对应的对准节点,那么节点序列TiU]. . . TiDn]能够唯一的插入到基准树Tb下2个相邻兄弟节点之间;如果节点序列TiU]-TiDn]在标签树1\的共同父节点下只有I个左相邻兄弟节点k,并且节点k对应的对准着基准树Tb下的最右边的节点,那么节点序列能够唯一的插入到基准树Tb下节点k的最右边位置;如果节点序列Ti ... Ti 在标签树Ti的共同父节点下只有I个右相邻兄弟节点k,并且节点k对应的对准着基准树Tb下的最左边的节点,那么节点序列TiU]. . . TiDn]能够唯一的插入到基准树Tb下节点k的最左边的位置;如果不能唯一确定标签树Ti下一个非对准节点k在基准树Tb下的位置,那么将执行不插入,而是将标签树Ti放到临时数据记录数组里。全文摘要本专利技术公开了,包括如下步骤 网页处理和转化;数据记录识别;数据记录对准和抽取;数据存储;根据HTML网页的内容的树结构特点,通过对抓取到的网页进行处理转化为标签树结构,自底而上的为每个树节点赋上权值,使得不同层次的节点具有不同的权值,然后根据相似子树集和位置连续性来识别出数据记录区域,然后根据包含数据记录的标签树集进行树对准操作生成基准树作为抽取模板,可以得到高效率和高准确度的结果。文档编号G06F17/30GK102591931SQ20111043818公开日2012年7月18日 申请日期2011年12月23日 优先权日2011年12月23日专利技术者吴健, 吴朝晖, 尹建伟, 彭勇, 李莹, 杨弈锦, 邓水光 申请人:浙江大学本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:尹建伟彭勇杨弈锦邓水光李莹吴健吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术