基于关系表的可配置信息抽取方法技术

技术编号:11984332 阅读:75 留言:0更新日期:2015-09-02 14:08
一种基于关系表的可配置信息抽取方法,首先用结构化的形式对信息抽取任务进行定义,然后采取人工方式和机器学习相结合的方法,构建抽取规则,从而对目标页面进行抽取;1)信息抽取用户接口:所述用户接口让用户以表格化的形式表达信息抽取需求,包括对信息抽取的主体;2)信息抽取规则集生成,所需信息的抽取规则集合分成两部分:人工构建的抽取规则和通过机器学习自动生成的规则;3)数据抽取:对网页上信息的抽取和结果的持久化的工作:根据用户配置的信息抽取表对某一网页抽取信息时,分别对每个属性的内容进行抽取,再使用训练好的模型对其进行分类。

【技术实现步骤摘要】
基于关系表的可配置信息抽取方法一、
本专利技术属于计算机领域互联网数据抽取,具体涉及一种基于关系表的可配置信息抽取框架技术。二、
技术介绍
随着互联网的迅速发展,人们的生活越来越离不开网络,互联网上的信息量也呈现爆炸性的增长,这使得互联网成为了一个巨大的信息源,能够提供海量有价值的信息。对于用户来说,如何有效地获取和利用这些信息变得尤为迫切和重要。目前互联网上的数据大部分都是以HTML形式出现的,HTML文档中的信息主要是面向显示的,缺乏对数据本身的描述,也不包含语义信息,大多是非结构化或半结构化的数据。这使得应用程序无法直接解析并利用这些信息。为了增加互联网上数据的可用性,让应用程序能够直接利用互联网上的信息资源,让用户能够在海量信息中方便地获取所需要的信息,需要自动将网页上的非结构化或半结构化数据转化为结构化数据。Web信息抽取技术正是在这种背景下产生的。Web信息抽取指的是从网页所包含的无结构或半结构化数据中抽取出用户感兴趣的数据,并将其转化为更具语义,更结构化的形式保存下来以供用户查询或其他程序应用。因此传统的信息抽取通常使用自然语言理解技术,如词典、语法分析等,而Web信息抽取常常使用机器学习、模式挖掘等技术。Web信息抽取在Web数据挖掘的很多应用中有很重要的作用,如超链接分析,日志挖掘,网页内容挖掘等。一个信息抽取任务通常是与某个领域密切相关的,如抽取课程类网站主页上的课程名称、内容和老师等信息,或从旅游论坛上抽取联系信息和联系信息对应的功能类别等。生活中也有很有Web信息抽取的应用,如购物网站商品比较系统抽取不同购物网站的商品价格等信息反馈给用户;个性化自动信息推送服务自动在目标网站抽取用户感兴趣的信息定期推送给用户等。不同的抽取任务涉及不同领域,缺乏一定的规范,而同一个抽取任务在抽取不同网站上的信息时,由于不同网站页面组织和数据结构存在差异,也给信息抽取带来很大困难。Web信息抽取系统的研究可以追溯到二十世纪九十年代。早期的Web信息抽取系统需要人为定义规则,用户人工为每个抽取任务编写包装器。之后的框架逐渐引入了机器学习等方法以自动生成抽取规则,用户不需要人工(手工)编写抽取规则而只要对数据样本进行标注,大大降低了对用户的要求和包装器的生成成本。近年来的研究重点主要在于进一步提高Web信息抽取自动化程度,降低标注代价,但是自动化程度的提高往往以一些其他性能为代价,如系统对不同领域任务适应性的降低或对作为输入的Web页面有一些特殊的限制。目前主流的Web信息抽取技术主要有:基于包装器开发专用语言的抽取技术、基于数据模型的抽取技术、基于HTML结构的抽取技术和基于自然语言处理的抽取技术等。如CN103309954A公开的基于html网页的数据抽取方法,其由xml解析器,html引擎以及数据管理器三个模块组成;其中:所述xml解析器模块负责解析sysconfig.xml文件,得到系统初始化参数、页面的url地址和目标节点的描述信息;所述html引擎模块首先验证sysconfig.xml文件配置信息的有效性,如果有效则继续执行,否则提示用户检查xml文件配置信息;xml文件配置通过验证之后,根据配置信息中的页面链接地址,获取该页面的html文档,然后再调用html解析器来解析html文档,根据sysconfig.xml中配置的目标节点选择器描述信息,获得html中目标元素,从而获得该元素的数据;所述数据管理模块主要是负责数据的持久化工作,根据用户在sysconfig.xml中配置的数据保存方式,选择相应的数据管理器来完成数据的持久化工作;所述系统进行数据抽取的工作流程如下:首先,html引擎模块根据xml解析器模块获得的html页面url地址,通过httpget请求获取目标网页文档;接着xml解析器模块根据xml文件中的配置目标节点选择器,描述具有相同html页面结构的目标节点;再经过我们的html引擎模块解析,得到我们想要的目标节点的结构化数据;最后由数据管理器模块根据配置文件中配置的数据保存方式将其保存在相应的介质中。使用基于包装器开发专用语言的抽取技术需要采用人工构建包装器的方法,这就要求用户既要有编程经验又要拥有丰富的领域背景知识和对系统可能的应用场景与任务的预见能力。基于模型的抽取技术主要考虑数据对象的结构以及周围数据特征,受文件形式的影响较小,有较好地灵活性,并且具有一定的自动化程度。但是没有考虑不同网页信息之间的异构性,只能在相似网页中进行抽取。而基于HTML结构的抽取技术依赖HTML页面的结构对信息进行定位,产生的规则只适用于结构相同或相似的一类网页,对于结构不同的网页要重新产生规则。基于自然语言处理的技术只有在含有大量自由文本且句子完整、适合语法分析的网页中能够取得较好的效果,不适用于一般的Web页面,也没有利用Web页面的层次特性。现有的不同的信息抽取框架有各自的特点,也有很多不足。主要有:1.在通用性方面,有些只能从网页的纯文本内容中进行信息抽取;有些只适合半结构数据的抽取;有些依赖网页固有结构,只能在相似网页中进行抽取等。2.现有的抽取技术主要针对网页上明确出现的信息进行抽取,没有考虑网页中隐含信息的抽取。提出了基于关系表的可配置信息抽取框架,三、
技术实现思路
本专利技术目的是,在吸取现有技术的基础上,提出一种基于关系表的可配置信息抽取框架方法,不仅具有良好的通用性,抽取所适用的规则可适用于结构相同或相异的网页,而且可以抽取网页中没有明确出现的隐含信息。本专利技术的技术方案,一种基于关系表的可配置信息抽取框架或方法,即Web信息抽取方法或框架;首先用结构化的形式对信息抽取任务进行定义,然后采取人工方式和机器学习相结合的方法,构建抽取规则,从而对目标页面进行抽取;本专利技术提出的方法主要由三个部分组成,分别是信息抽取用户接口,抽取规则集生成和数据抽取。1)信息抽取用户接口:所述用户接口让用户以表格化的形式表达信息抽取需求,包括对信息抽取的主体,即信息抽取表的主键的定义和对信息抽取表中各种属性的定义;主键和属性的定义的方式采用人工直接构建抽取规则,或者通过样例描述的方法自动学习生成抽取规则;所述的抽取方法中,用户使用类SQL语言创建信息抽取表,通过信息抽取表的形式定义所要抽取的信息,为信息抽取表定义主键和属性;信息抽取表的主键即所要抽取的信息的主体,是网页中的任何信息或网站本身;属性是网页中明确出现的信息或网页中隐含的信息、特征值或关键词;2)信息抽取规则集生成,所需信息的抽取规则集合分成两部分:人工构建的抽取规则和通过机器学习自动生成的规则;人工构建的抽取规则直接通过正则表达式和CSS选择器编写,在信息抽取表创建时用户直接对于这类属性定义其抽取规则自动生成的规则需要根据信息抽取表中定义的某属性的特征,先从一部分网页中抽取其对应特征的一组特征值样本,然后对样本进行人工标注;再使用支持向量机SVM训练分类模型从样本中归纳出特征到属性值的映射的一般规律,即为对应信息的抽取规则;人工标注样本的过程就是构建样本中属性的特征到属性值的映射的过程;3)数据抽取:主要内容是对网页上信息的抽取和结果的持久化的工作。根据用户配置的信息抽取表对某一网页抽取信息时,分别对每个属性的内容进行抽取,根本文档来自技高网
...
基于关系表的可配置信息抽取方法

【技术保护点】
一种基于关系表的可配置信息抽取方法,其特征是步骤如下:首先用结构化的形式对信息抽取任务进行定义,然后采取人工方式和机器学习相结合的方法,构建抽取规则,从而对目标页面进行抽取;1)信息抽取用户接口:所述用户接口让用户以表格化的形式表达信息抽取需求,包括对信息抽取的主体,即信息抽取表的主键的定义和对信息抽取表中各种属性的定义;主键和属性的定义的方式采用人工直接构建抽取规则,或者通过样例描述的方法自动学习生成抽取规则;所述的抽取方法中,用户使用类SQL语言创建信息抽取表,通过信息抽取表的形式定义所要抽取的信息,为信息抽取表定义主键和属性;信息抽取表的主键即所要抽取的信息的主体,是网页中的任何信息或网站本身;属性是网页中明确出现的信息或网页中隐含的信息、特征值或关键词;2)信息抽取规则集生成,所需信息的抽取规则集合分成两部分:人工构建的抽取规则和通过机器学习自动生成的规则;人工构建的抽取规则直接通过正则表达式和CSS选择器编写,在信息抽取表创建时用户直接对于这类属性定义其抽取规则自动生成的规则需要根据信息抽取表中定义的某属性的特征,先从一部分网页中抽取其对应特征的一组特征值样本,然后对样本进行人工标注;再使用支持向量机SVM训练分类模型从样本中归纳出特征到属性值的映射的一般规律,即为对应信息的抽取规则;人工标注样本的过程就是构建样本中属性的特征到属性值的映射的过程;3)数据抽取:对网页上信息的抽取和结果的持久化的工作:根据用户配置的信息抽取表对某一网页抽取信息时,分别对每个属性的内容进行抽取,根据不同属性抽取规则的不同,抽取过程可以分别直接按规则对网页上的内容进行抽取和先从页面中抽取对应的特征值,再使用训练好的模型对其进行分类。抽取的结果以结构化的形式存储到数据库中,与用户定义的信息抽取表对应。...

【技术特征摘要】
1.一种基于关系表的可配置信息抽取方法,其特征是步骤如下:首先用结构化的形式对信息抽取任务进行定义,然后采取人工方式和机器学习相结合的方法,构建抽取规则,从而对目标页面进行抽取;1)信息抽取用户接口:所述用户接口让用户以表格化的形式表达信息抽取需求,包括对信息抽取的主体,即信息抽取表的主键的定义和对信息抽取表中各种属性的定义;主键和属性的定义的方式采用人工直接构建抽取规则;所述的抽取方法中,用户使用类SQL语言创建信息抽取表,通过信息抽取表的形式定义所要抽取的信息,为信息抽取表定义主键和属性;信息抽取表的主键即所要抽取的信息的主体,是网页中的任何信息或网站本身;属性是网页中明确出现的信息或网页中隐含的信息、特征值或关键词;2)信息抽取规则集生成,所需信息的抽取规则集合为人工构建的抽取规则;人工构建的抽取规则直接通过正则表达式和CSS选择器编写,在信息抽取表创建时用户直接对于所述属性定义其抽取规则自动生成的规则需要根据信息抽取表中定义的某属性的特征,先从一部分网页中抽取其对应特征的一组特征值样本,然后对样本进行人工标注;再使用支持向量机SVM训练分类模型从样本中归纳出特征到属性值的映射的一般规律,即为对应信息的抽取规则;人工标注样本的过程就是构建样本中属性的特征到属性值的映射的过程;3)数据抽取:对网页上信息的抽取和结果的持久化的工作:根据用户配置的信息抽取表对某一网页抽取信息时,分别对每个属性的内容进行抽取,根据不同属性抽取规则的不同,抽取过程能够分别直接按规则对网页上的内容进行抽取和先从页面中抽取对应的特征值,再使用训练好的模型对其进行分类;抽取的结果以结构化的形式存储到数据库中,与用户定义的信息抽取表对应;对于需要通过特征来定义的属性而言,不同特征值的组合蕴含了不同的属性值,而不同特征值的组合到属性值之间的映射规则即为该属性对应的抽取规则;而对于部分属性的抽取,使用机器学习的方法自动生成抽取规则,则通过关键词特征来定义:通过...

【专利技术属性】
技术研发人员:滕晓程陈茂榕邵明路周晔孟凡军
申请(专利权)人:焦点科技股份有限公司东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1