基于关系表的可配置信息抽取方法技术

技术编号：11984332 阅读：75 留言：0更新日期：2015-09-02 14:08

一种基于关系表的可配置信息抽取方法，首先用结构化的形式对信息抽取任务进行定义，然后采取人工方式和机器学习相结合的方法，构建抽取规则，从而对目标页面进行抽取；1)信息抽取用户接口：所述用户接口让用户以表格化的形式表达信息抽取需求，包括对信息抽取的主体；2)信息抽取规则集生成，所需信息的抽取规则集合分成两部分：人工构建的抽取规则和通过机器学习自动生成的规则；3)数据抽取：对网页上信息的抽取和结果的持久化的工作：根据用户配置的信息抽取表对某一网页抽取信息时，分别对每个属性的内容进行抽取，再使用训练好的模型对其进行分类。

全部详细技术资料下载

【技术实现步骤摘要】
基于关系表的可配置信息抽取方法一、
本专利技术属于计算机领域互联网数据抽取，具体涉及一种基于关系表的可配置信息抽取框架技术。二、
技术介绍
随着互联网的迅速发展，人们的生活越来越离不开网络，互联网上的信息量也呈现爆炸性的增长，这使得互联网成为了一个巨大的信息源，能够提供海量有价值的信息。对于用户来说，如何有效地获取和利用这些信息变得尤为迫切和重要。目前互联网上的数据大部分都是以HTML形式出现的，HTML文档中的信息主要是面向显示的，缺乏对数据本身的描述，也不包含语义信息，大多是非结构化或半结构化的数据。这使得应用程序无法直接解析并利用这些信息。为了增加互联网上数据的可用性，让应用程序能够直接利用互联网上的信息资源，让用户能够在海量信息中方便地获取所需要的信息，需要自动将网页上的非结构化或半结构化数据转化为结构化数据。Web信息抽取技术正是在这种背景下产生的。Web信息抽取指的是从网页所包含的无结构或半结构化数据中抽取出用户感兴趣的数据，并将其转化为更具语义，更结构化的形式保存下来以供用户查询或其他程序应用。因此传统的信息抽取通常使用自然语言理解技术，如词典、语法分析等，而Web信息抽取常常使用机器学习、模式挖掘等技术。Web信息抽取在Web数据挖掘的很多应用中有很重要的作用，如超链接分析，日志挖掘，网页内容挖掘等。一个信息抽取任务通常是与某个领域密切相关的，如抽取课程类网站主页上的课程名称、内容和老师等信息，或从旅游论坛上抽取联系信息和联系信息对应的功能类别等。生活中也有很有Web信息抽取的应用，如购物网站商品比较系统抽取不同购物网站的商品价格等信息反馈...
基于关系表的可配置信息抽取方法

【技术保护点】
一种基于关系表的可配置信息抽取方法，其特征是步骤如下：首先用结构化的形式对信息抽取任务进行定义，然后采取人工方式和机器学习相结合的方法，构建抽取规则，从而对目标页面进行抽取；1)信息抽取用户接口：所述用户接口让用户以表格化的形式表达信息抽取需求，包括对信息抽取的主体，即信息抽取表的主键的定义和对信息抽取表中各种属性的定义；主键和属性的定义的方式采用人工直接构建抽取规则，或者通过样例描述的方法自动学习生成抽取规则；所述的抽取方法中，用户使用类SQL语言创建信息抽取表，通过信息抽取表的形式定义所要抽取的信息，为信息抽取表定义主键和属性；信息抽取表的主键即所要抽取的信息的主体，是网页中的任何信息或网站本身；属性是网页中明确出现的信息或网页中隐含的信息、特征值或关键词；2)信息抽取规则集生成，所需信息的抽取规则集合分成两部分：人工构建的抽取规则和通过机器学习自动生成的规则；人工构建的抽取规则直接通过正则表达式和CSS选择器编写，在信息抽取表创建时用户直接对于这类属性定义其抽取规则自动生成的规则需要根据信息抽取表中定义的某属性的特征，先从一部分网页中抽取其对应特征的一组特征值样本，然后对样本进行...

【技术特征摘要】
1.一种基于关系表的可配置信息抽取方法，其特征是步骤如下：首先用结构化的形式对信息抽取任务进行定义，然后采取人工方式和机器学习相结合的方法，构建抽取规则，从而对目标页面进行抽取；1）信息抽取用户接口：所述用户接口让用户以表格化的形式表达信息抽取需求，包括对信息抽取的主体，即信息抽取表的主键的定义和对信息抽取表中各种属性的定义；主键和属性的定义的方式采用人工直接构建抽取规则；所述的抽取方法中，用户使用类SQL语言创建信息抽取表，通过信息抽取表的形式定义所要抽取的信息，为信息抽取表定义主键和属性；信息抽取表的主键即所要抽取的信息的主体，是网页中的任何信息或网站本身；属性是网页中明确出现的信息或网页中隐含的信息、特征值或关键词；2）信息抽取规则集生成，所需信息的抽取规则集合为人工构建的抽取规则；人工构建的抽取规则直接通过正则表达式和CSS选择器编写，在信息抽取表创建时用户直接对于所述属性定义其抽取规则自动生成的规则需要根据信息抽取表中定义的某属性的特征，先从一部分网页中抽取其对应特征的一组特征值样本，然后对样本进行人工标注；再使用支持向量机SVM训练分类模型从样本中归纳出特征到属性值的映射的一般规律，即为对应信息的抽取规则；人工标注样本的过程就是构建样本中属性的特征到属性值的映射的过程；3）数据抽取：对网页上信息的抽取和结果的持久化的工作：根据用户配置的信息抽取表对某一网页抽取信息时，分别对每个属性的内容进行抽取，根据不同属性抽取规则的不同，抽取过程能够分别直接按规则对网页上的内容进行抽取和先从页面中抽取对应的特征值，再使用训练好的模型对其进行分类；抽取的结果以结构化的形式存储到数据库中，与用户定义的信息抽取表对应；对于需要通过特征来定义的属性而言，不同特征值的组合蕴含了不同的属性值，而不同特征值的组合到属性值之间的映射规则即为该属性对应的抽取规则；而对于部分属性的抽取，使用机器学习的方法自动生成抽取规则，则通过关键词特征来定义：通过...

【专利技术属性】
技术研发人员：滕晓程，陈茂榕，邵明路，周晔，孟凡军，
申请(专利权)人：焦点科技股份有限公司，东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人