用于对实体关系实例进行过滤的方法和设备技术

技术编号:3900721 阅读:200 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种对实体关系实例进行过滤的方法和设备。所述方法可以包括:基于实体关系实例的可靠性相关信息来对实体关系实例的可靠性进行标记;以及对经过标记的实体关系实例进行过滤,以得到可靠的实体关系实例。通过本发明专利技术,可以得到精确度更高的实体关系实例,为基于实体关系实例的高层分析提供了更加可靠的基础,从而使得得到的实体关系实例对于高层决策具有更大的实用性。

【技术实现步骤摘要】

本专利技术涉及信息抽取的
,更具体地涉及用于对实体关系实例进行过滤的 方法和设备。
技术介绍
随着经济全球化的不断发展、市场区域的持续扩大以及竞争对手的不断增多,对 于企业而言,拥有对外界信息进行捕捉和处理的能力显得愈发重要。具体来说,就是需要这 样一种技术处理能力,即,通过对与之相关企业的商业关系分析营造出一个虚拟的企业经 营环境,用以帮助企业各级决策者获得知识和洞察力,进而做出对企业更为有利的决策。信息抽取是构筑上述技术处理能力的核心技术之一,而实体关系抽取继而是信息 抽取领域中的重要研究课题之一。实体关系抽取是一种用于自动地从文本中发现实体之间 的关系的技术。例如,对于给定文本“AMD plans to compete with Intel atom chip”,根 据该技术能够自动分析出命名实体“AMD”和“Intel”之间存在“竞争(compete) ”关系。实 体关系抽取作为信息抽取领域的重要技术之一,其处理结果将会直接影响到更高层分析, 例如企业商业信息处理。因此,高效准确的实体关系抽取方法是对于实体关系抽取而言是 非常重要的。从技术的角度来讲,实体关系抽取是要自动识别用自然语言表达的两个实体之间 的关联。在现有技术中,通常使用的方法主要包括基于规则的抽取方法和机器学习的抽取 方法。基于规则的抽取方法需要针对不同的领域由专家构造相应的知识库。而另外一种基 于机器学习的抽取方法则是将关系抽取转换为分类问题,其通过构造关系候选,利用机器 学习得到分类器,从而利用该分类器将关系标注为属于哪个预定义的关系。由于关系抽取 问题本身具有极大的复杂性,所以无论是规则方法还是机器学习方法都无法达到令人满意 的抽取精度。另外,使用不可信的数据源信息也会引入额外的干扰,这使得关系抽取距离实 际应用的要求还相差很大的距离。为得到比较精确的抽取结果,现有技术中的一个可行的办法就是对抽取后的结果 进行分析和过滤,以便剔除错误的抽取结果,提高实体关系实例的精度,进而满足实际应用 的需要。因此,如何构造一个高效的实体关系过滤机制就变成一个实用的并且亟待解决的 问题。对于实体关系过滤问题,现有技术中存在一些相关的解决方案。例如,在Katrin Fundel、Robert Kuffner 禾口 Ralf Zimmer 于 2006 年 12 月在 Bioinformatics 中发表的 “RelEx-Relation extraction using dependency parse trees,,(v. 23η· 3,ρ· 365-371)中, 公开了基于规则的关系过滤方法,也可以称为后处理步骤。在该文献中引入专家知识,并构 建四种过滤机制来对抽取的实体关系进行进一步修正和过滤。这四种处理机制分别对应于四个过滤步骤1)否定检查,即确定一个关系是否为否定关系。如果候选关系的节点或者各 个子结点的节点中包含否定含义的词,比如‘‘η0(不)”、“not(非)”、‘‘n0r(也不)”、"neither (均不)”、‘‘without (没有)”、‘‘lack(缺少)”、‘‘fail (s,ed)(未能)”、‘‘unable (s) (不能)”、“abrogate (s,d)(取消)'\"absen(ce, t))(缺乏)”等词,则该关系被认为是否 定的。根据该文献中的方法,将会把这些否定的关系剔除。2)施事_受事检测。施事是指语法上的动作主体,受事是指语法上的动作对象。 在一对关系中,通常先出现的实体为施事,而后出现的为受事。如果检测到对应的上下文描 述为被动语态,那么则将实体关系中的施事和受事的角色调换。在该文献中,通过一系列预 先定义的词来判断上下文的语态是否是被动语态。3)枚举消解。通过分析与检测到的关系对应的名词短语块,来判断是否存在并列 枚举的实体,如果存在枚举的实体,则生成多个类似的实体关系实例。4)兴趣域过滤。在该处理机制中,预先定义一系列领域相关词或者词组,并检测与 检查到的关系对应的文本是否包含该领域相关词或者词组,如果不包含该领域相关词或者 词组,则将该实体关系实例剔除。从该文献的公开内容可以看出,这些过滤机制在一定程度上解决了滤除错误关系 实例的问题。然而,事实上,实体关系实例的精确度仍然有待提高。
技术实现思路
为此,本专利技术目的之一在于提供了一种用于对实体关系实例进行过滤的方法和设 备,以便提高得到的实体关系实例的精度。根据本专利技术的一个方面,提供了一种用于对实体关系实例进行过滤的方法。所述 方法可以包括基于实体关系实例的可靠性相关信息来对实体关系实例的可靠性进行标 记;以及对经过标记的实体关系实例进行过滤,以得到可靠的实体关系实例。在根据本专利技术的一个实施方式中,对实体关系实例的可靠性进行标记可以包括 基于该实体关系实例的可靠性相关信息确定该实体关系实例的可信度;以及比较所确定的 可信度与预定的可信度阈值,以将实体关系实例标记为可靠或者不可靠。根据本专利技术的另一实施方式,所述可靠性相关信息可以包括实体关系实例的数 据源的可信度和实体关系实例的抽取规则的可信度中的至少一个,以及基于实体关系实例 的数据源的可信度和实体关系实例的抽取规则的可信度中的至少一个来确定该实体关系 的可信度。根据本专利技术的再一实施方式,可以通过计算与该数据源相关的、预先经过标记的 多个实体关系实例中可靠实体关系实例的比例来得到该数据源的可信度。根据本专利技术的又一实施方式,可以基于包括该数据源的多个数据源之间的关联关 系和其中部分数据源的已知初始可信度,通过预定迭代算法,来得到该多个数据源的可信度。根据本专利技术的另一实施方式,所述抽取规则的可信度可以通过计算与该抽取规则 相关的、预先经过标记的多个实体关系实例中可靠实体关系实例的比例而得到。根据本专利技术的再一实施方式,所述可靠性相关信息可以包括广域上下文信息和预 定的广域上下文判定规则,以及其中基于广域上下文信息和预定的广域上下文判定规则来 确定该实体关系实例的可信度。根据本专利技术的又一实施方式,所述可靠性相关信息可以进一步包括广域上下文信息和预定的广域上下文判定规则,以及其中进一步基于广域上下文信息和预定的广域上下 文判定规则来确定该实体关系实例的可信度。根据本专利技术的另一实施方式,所述广域上下文信息可以是与该实体关系实例相关 的实体的商业类型信息,以及所述预定的广域上下文判定规则是与实体商业类型信息相关 的规则。根据本专利技术的再一实施方式,所述可靠性相关信息可以包括关系历史判定规则, 以及其中基于关系历史判定规则对涉及相同实体对的实体关系实例进行标记。根据本专利技术的又一实施方式,所述关系历史判定规则可以包括施事-受事关系对 和/或关系变化模式。根据本专利技术的另一实施方式,所述可靠性相关信息可以进一步包括关系历史判定 规则,以及其中进一步基于关系历史判定规则对涉及相同实体对的实体关系实例进行标 记。根据本专利技术的再一实施方式,可以进一步包括将经过标记的、可信度在预定阈值 范围内的实体关系实例保存到库中。根据本专利技术的另一方面,提供了一种用于对实体关系实例进行过滤的设备。所述 设备包括标记装置,用于基于实体关系实例的可靠性相关信息来对实体关系实例的可靠 性进行标记;以及过滤装置,用于对经过标记的实本文档来自技高网
...

【技术保护点】
一种用于对实体关系实例进行过滤的方法,包括:基于实体关系实例的可靠性相关信息来对实体关系实例的可靠性进行标记;以及对经过标记的实体关系实例进行过滤,以得到可靠的实体关系实例。

【技术特征摘要】

【专利技术属性】
技术研发人员:沈国阳胡长建许洪志
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1