基于树权值的网页数据记录识别和抽取方法技术

技术编号：7590665 阅读：301 留言：0更新日期：2012-07-21 03:35

本发明专利技术公开了基于树权值的网页数据记录识别和抽取方法，包括如下步骤：?网页处理和转化；数据记录识别；数据记录对准和抽取；数据存储；根据HTML网页的内容的树结构特点，通过对抓取到的网页进行处理转化为标签树结构，自底而上的为每个树节点赋上权值，使得不同层次的节点具有不同的权值，然后根据相似子树集和位置连续性来识别出数据记录区域，然后根据包含数据记录的标签树集进行树对准操作生成基准树作为抽取模板，可以得到高效率和高准确度的结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息抽取领域，尤其涉及。
技术介绍
随着互联网信息在时间度量下的发展呈指数级增长，网页中包含着越来越多人们感兴趣的资源和信息，但是伴随着信息量增大，信息的查找开始变得困难。由于信息的无序性，我们只能采用“全文检索”来查找所需的信息，但是包含所需信息的各类网页中充斥着大量的广告和链接等无关信息，使得我们无法快速且直观的获取到我们需要的有用信息，而当前依赖于人工获取信息的方式效率低下，用户所需的信息往往需要从多个不同的信息源获得，由于包含这些信息的不同网站存在结构上的差异性，要获取需要的信息必须以人工的方式对不同的网站进行查询分析处理，最后将结果组织成需要的格式保存到数据库中以供后续服务使用，这个过程是繁琐的，而且效率也很低下。因而如何能够准确高效的从海量HTML文档中抽取出用户感兴趣的内容变得越来越重要，正是在这种背景下被提出来的。网页信息抽取技术是信息抽取技术在互联网应用领域的一个用例。网页信息抽取是将分布在互联网上的海量的结构化，半结构化或者自由的HTML文本中的特定信息抽取出来，并转换为统一的结构化表现形式。互联网网页信息抽取有别于传统信息抽取的特点，具有海量数据、结构差异性、动态变化性、非结构化数据、语义信息缺乏。网页信息抽取中负责将信息从网页中抽取出来的程序被上被称为包装器 (Wrapper)，它是从半结构化HTML文本中抽取信息并转化为统一的结构化信息后存储起来的程序。它将信息抽取自动化，对面向海量的网页信息时特别有用。根据生成方法的原理可以分为机器方法、自然语言理解方法、本体方法、HTML方法等等。基于HTML结构特征的方法...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：尹建伟，彭勇，杨弈锦，邓水光，李莹，吴健，吴朝晖，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人