当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于特征模型的跨领域信息抽取方法技术

技术编号:15840687 阅读:51 留言:0更新日期:2017-07-18 16:50
本发明专利技术公开了一种基于特征模型的跨领域信息抽取方法。该方法分为多层次特征模型的建立、特征选择与组合以及反馈迭代机制三部分。引入了遗传算法并采用支持向量机进行交叉验证的特征空间生成算法,根据不同领域的原子特征,生成满足抽取任务要求的特征模型。它避免了传统Web信息抽取方法的领域适应度差的问题。大量的数值实验表明,与同类方法相比,该方法具有更高准确率和稳定性,并且算法本身有很好的可扩展性。

A method of cross domain information extraction based on feature model

The invention discloses a method for extracting cross domain information based on a feature model. The method is divided into three parts: the establishment of multi-level feature model, feature selection and combination, and feedback iteration mechanism. A genetic algorithm is introduced and a feature space generation algorithm based on cross validation of support vector machines is proposed. According to the atomic features in different fields, a feature model satisfying the task of extraction is generated. It avoids the problem of poor adaptability of traditional Web information extraction methods. A large number of numerical experiments show that the proposed method has higher accuracy and stability compared with other similar methods, and the algorithm itself is very scalable.

【技术实现步骤摘要】
一种基于特征模型的跨领域信息抽取方法
本专利技术涉及Web信息抽取领域,特别是一种基于特征模型的跨领域信息抽取方法。
技术介绍
Web信息抽取是从非结构化的网页文本中按某种抽取规则获得符合该规则的内容,然后再将其转化为结构和语义更为清晰的格式(XML、关系数据、面向对象的数据等)存储。Web信息抽取不完全等同于对普通文本的信息抽取,当前的网页多为半结构化的形式,一个重要特性是页面的表现形式多样化,这给Web信息抽取带来了困难。而针对网页的跨领域信息抽取方法的研究就是在为了解决Web信息抽取中的通用性问题。总体来说,目前跨领域信息抽取的挑战主要是以下三个方面:1、海量的半结构化文本随着互联网产业的迅速发展,Web已经成为一个巨大的信息库。根据中国互联网信息中心(CNNIC)发布《第33次中国互联网络发展状况统计报告》显示,截至2013年12月,中国网页数量为1500亿个,相比2012年同期增长了22.2%。单个网站的平均网页数和单个网页的平均字节数均维持增长,显示出中国互联网上的内容更为丰富。同时2014中国互联网网民占人口总数的44%,且数量仍在快速增长,互联网已成为人们生活中传播与共享商业、教育、新闻和科研等信息的主要途径。2、网页动态性网页的动态性是指网页的样式和内容是由程序动态生成的。早期的网页称为静态页面,其样式和内容都是先在后台组织好,传送给浏览器后文本内容和样式不再改变。目前以JavaScript为主流的动态网页技术得到广泛的应用,JavaScript代码不仅可以动态改变网页的布局和样式,也可以通过请求后台数据动态改变页面内容。网页的动态性给跨领域信息抽取的研究提出了新的课题,过去的抽取系统已经不能适应当前网页的实时变化,一旦网页发现变化,就不能进行有效的信息抽取了。3、网页的异构性网页的异构性主要是指不同网页之间文本样式和主题内容的差异性。网页可以以多种多样的形式展示信息,即使是同一网站中相同内容的不同页面所展示的样式也可能不同。如果是来至不同网站的网页,其表现形式的差异性将更大。综上所述,由于不同网站中网页布局的差异化和同一网站中信息的多样化展示方式,网页的异构性也是跨领域信息抽取的一个难点。目前,已有一些研究小组在进行跨领域信息抽取方面的研究,也开发了少量的工具。这些方法各有其优点,但也各有其局限性,无法完全满足Web信息抽取的需要。基于规则的方法自动化程度低,需要大量的人工工作,并且只是针对特定的网页有效,通用性差。基于机器学习自动生成抽取推理模型的方法在一定程度上解决了人工构造规则的问题,但是由于其需要大量的样本做训练,仍然面临着当网站结构或抽取任务改变时需要重新训练推理模型的问题,甚至需要加入一定的人工干预,很难在实际应用中推广。通过我们的方法中提出的特征模型,能很好很快的适应信息抽取任务的领域变化,并且较为通用。
技术实现思路
本专利技术的目的在于,为了解决上述问题而提供一种基于特征模型的跨领域信息抽取方法,该方法能分解领域相关特征,获取领域弱相关的子特征,并构建特征模型。利用该模型,能够对特征和信息抽取任务之间的匹配度和区分度进行评价。基于该特征模型,提出了一种能够快速适应领域变化的信息抽取方法,该方法采用了反馈迭代优化推理模型的机制,能够针对特定信息抽取任务快速获取针对该领域的特征组合,从而适应领域的变化。为达到上述目的,本专利技术的构思是:首先对具有领域相关性的特征进行降解,将特征分为复合特征(由一个或多个原子特征以某种形式或逻辑构成的特征,具有领域特点)和原子特征(不包括任何其他特征的独立特征,不具有或仅具有少量的领域特点),通过降低特征的领域相关性,减少信息抽取方法的领域依赖性;然后结合特征参数化方法实现特征模块的实例化,通过对一个个最底层的特征块的选择和组合,来组成一个个适合各个领域或者是各个抽取目标的抽取模板。在面对领域变化时,只需要根据目标领域文本的领域相关特征(如,上下文关系、行文方式等)重新将特征进行逻辑组合(如,有A特征但不存在B特征),构成特征向量,同时训练得到推理模型,通过反馈迭代技术不断优化生成的向量空间,以达到更优的信息抽取效果。根据上述专利技术构思,本专利技术采用如下技术方案:一种基于特征模型的跨领域信息抽取方法,具体操作步骤如下:a.建立多层次特征模型,对现有信息抽取方法中使用到的特征进行归纳总结,将这些特征分解为领域依赖性较低的原子特征,并依据分解的程度建立多层次特征模型,参考现有的特征参数化方法进行特征的参数化,最后,对参数化后的特征建立特征领域适应性分析的评价体系,即每个特征对于不同的领域都有一个初始的适应度值,这个值作为特征选择的初始化依据;b.特征选择与组合,通过步骤a中得到的特征的参数化计算结果,使用类似TF-IDF的方法来计算特征的领域适应度值,依据特征的领域适应度值来选择合适的特征,构造特征向量空间;c.反馈迭代,根据步骤b得到的特征向量空间在训练样本集中进行交叉验证,得到抽取推理模型的抽取效果作为反馈的结果,根据反馈的结果采取基于遗传算法的特征选择方法来修正特征向量空间。所述步骤b中的领域适应度使用两个指标来评价特征:特征匹配度和特征区分度;具体计算方法为:b-1.特征匹配度表示某一个特征匹配抽取目标的次数,其具体计算方式采用下述公式:其中,ni,j表示样本集j中,特征i正确匹配的样本数,Si,j表示在样本集j中,特征i匹配到的总样本数,MDi,j表示特征i在样本j中的匹配程度;b-2.特征区分度表示包含某个特征的样本在样本集中出现的频率,其具体计算方式采用下述公式:其中,S表示样本集中总的样本数,|{j:fi∈sj}|表示在样本s中包含特征i的样本集个数,DDi表示包含特征i的样本数在样本集中出现的频率;b-3.特征i的领域适应度的计算公式为MDi,j*DDi。所述步骤b中的构造特征向量空间,具体方法为:半随机半干预的构造特征向量空间方法,将初始化特征向量空间的一半个体以随机的方式产生,保证结果全局最优性;另一半个体以人工干预的形式尽量多的选择领域适应度值高的候选特征来优化初始化特征向量空间;人工干预的方法参考Holland提出的模拟赌盘的操作,其基本原理是根据每个特征的领域适应度值的比例来确定该特征的选择概率,特征i被选中的概率的计算公式如下:其中,Pi表示特征i被选中的概率,Fi表示特征i的领域适应度值。所述步骤c中的基于遗传算法的反馈迭代,具体为:c-1.根据每一代种群中特征向量适应度函数的返回值,来调整每个特征的适应度值,为之后一轮特征向量的遗传操作提供依据,其基本原理是根据每个出现该特征的特征向量适应度函数返回值的平均值来确定该特征的领域适应度值,其具体计算方式采用下述公式:其中,Fj表示反馈后的特征j的领域适应度值,f(Gi)表示特征向量Gi的适应度函数返回值,Gi,j表示在特征向量i中的第j个特征的特征值,即0或1,m表示群体中的最大个体数;c-2.根据每一轮迭代中特征出现在最优特征向量中的次数,来调整每个特征的适应度值,为之后一轮特征向量的遗传操作提供依据,其基本原理是根据每轮最优特征向量中出现该特征的次数总和占当前迭代轮数的比例来确定该特征的领域适应度值,其具体计算方式采用下述公式:其中,Ht,j表示第t轮迭代之后本文档来自技高网
...
一种基于特征模型的跨领域信息抽取方法

【技术保护点】
一种基于特征模型的跨领域信息抽取方法,其特征在于,具体操作步骤如下:a.建立多层次特征模型,对现有信息抽取方法中使用到的特征进行归纳总结,将这些特征分解为领域依赖性较低的原子特征,并依据分解的程度建立多层次特征模型,参考现有的特征参数化方法进行特征的参数化,最后,对参数化后的特征建立特征领域适应性分析的评价体系,即每个特征对于不同的领域都有一个初始的适应度值,这个值作为特征选择的初始化依据;b.特征选择与组合,通过步骤a中得到的特征的参数化计算结果,使用类似TF‑IDF的方法来计算特征的领域适应度值,依据特征的领域适应度值来选择合适的特征,构造特征向量空间;c.反馈迭代,根据步骤b得到的特征向量空间在训练样本集中进行交叉验证,得到抽取推理模型的抽取效果作为反馈的结果,根据反馈的结果采取基于遗传算法的特征选择方法来修正特征向量空间。

【技术特征摘要】
1.一种基于特征模型的跨领域信息抽取方法,其特征在于,具体操作步骤如下:a.建立多层次特征模型,对现有信息抽取方法中使用到的特征进行归纳总结,将这些特征分解为领域依赖性较低的原子特征,并依据分解的程度建立多层次特征模型,参考现有的特征参数化方法进行特征的参数化,最后,对参数化后的特征建立特征领域适应性分析的评价体系,即每个特征对于不同的领域都有一个初始的适应度值,这个值作为特征选择的初始化依据;b.特征选择与组合,通过步骤a中得到的特征的参数化计算结果,使用类似TF-IDF的方法来计算特征的领域适应度值,依据特征的领域适应度值来选择合适的特征,构造特征向量空间;c.反馈迭代,根据步骤b得到的特征向量空间在训练样本集中进行交叉验证,得到抽取推理模型的抽取效果作为反馈的结果,根据反馈的结果采取基于遗传算法的特征选择方法来修正特征向量空间。2.根据权利要求1所述的基于特征模型的跨领域信息抽取方法,其特征在于,所述步骤b中的领域适应度使用两个指标来评价特征:特征匹配度和特征区分度;具体计算方法为:b-1.特征匹配度表示某一个特征匹配抽取目标的次数,其具体计算方式采用下述公式:其中,ni,j表示样本集j中,特征i正确匹配的样本数,Si,j表示在样本集j中,特征i匹配到的总样本数,MDi,j表示特征i在样本j中的匹配程度;b-2.特征区分度表示包含某个特征的样本在样本集中出现的频率,其具体计算方式采用下述公式:其中,S表示样本集中总的样本数,|{j:fi∈sj}|表示在样本s中包含特征i的样本集个数,DDi表示包含特征i的样本数在样本集中出现的频率;b-3.特征i的领域适应度的计算公式为MDi,j*DDi。3.根据权利要求1所述的基于特征模型的跨领域信息抽取方法,其特征在于,所述步骤b中的构造特征向量空间,具体方法为:半随机半干预的构造特征向量空间方法,将初始化特征向量空间的一半个体以随机的方式产生,保证结果全局最优性;另一半个体以人工干预的形式尽量多的选择领域适应度值高的候选特征来优化初始化特征向量空间;人工干预的方法参考Holland提出的模拟赌盘的操作,其基本原理是根据每个特征的领域适应度值的比例来确定该特征的选择概率,特征i被选中的概率的计算...

【专利技术属性】
技术研发人员:朱文浩姚滕俊胡冠男金鑫周资力
申请(专利权)人:上海大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1