语义关系的抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:21184823 阅读:26 留言:0更新日期:2019-05-22 15:26
本申请实施例提供一种语义关系的抽取方法、装置、设备及存储介质,通过从文本中抽取获得实体间的多个候选关系;针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。本申请实施例提供的技术方案,能够提高语义关系抽取的可靠性。

Semantic Relations Extraction Method, Device, Equipment and Storage Media

The embodiment of this application provides a method, device, device and storage medium for extracting semantic relations, obtaining multiple candidate relationships among entities by extracting from text; searching text evidence including the candidate relationships among entities from information sources for each candidate relationship; and searching text evidence corresponding to each candidate relationship from the plurality of entities based on the number of text evidence corresponding to each candidate relationship obtained by searching. The actual relationship between the entities is determined in the candidate relationship. The technical scheme provided in the embodiment of this application can improve the reliability of semantic relation extraction.

【技术实现步骤摘要】
语义关系的抽取方法、装置、设备及存储介质
本申请实施例涉及人工智能
,尤其涉及一种语义关系的抽取方法、装置、设备及存储介质。
技术介绍
随着互联网的快速普及,网络信息呈爆炸式增长,采用信息抽取技术从文本中自动抽取结构化信息可以极大地提升人们获取信息的效率。关系抽取旨在基于文本的上下文信息从文本中抽取实体间的语义关系,是信息抽取的主要任务之一。然而,在文本中,由于一些特定关系的上下文信息严重不足,导致在关系分类时容易产生歧义,进而影响关系抽取的可靠性。
技术实现思路
本申请实施例提供一种语义关系的抽取方法、装置、设备及存储介质,用以提高语义关系抽取的可靠性,避免上下文信息缺失对语义关系抽取造成影响。本申请实施例第一方面提供一种语义关系的抽取方法,包括:从文本中抽取获得实体间的多个候选关系;针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。本申请实施例第二方面提供一种语义关系抽取装置,包括:抽取模块,用于从文本中抽取获得实体间的多个候选关系;证据查找模块,用于针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;确定模块,用于基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。本申请实施例第三方面提供一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器执行如上述第一方面所述的方法。本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行如上述第一方面所述的方法。基于以上各方面,本申请实施例通过从文本中抽取获得实体间的多个候选关系,针对每个候选关系,从信息源中查找包括该候选关系的文本证据,从而基于查找获得的各候选关系对应的文本证据的数量,从该些候选关系中确定出实体间的实际关系。由于本申请实施例在抽取获得实体间的各种候选关系后,还需要进一步从信息源中查找用于支持各种候选关系的证据,并根据证据的获取情况来最终判断实体间的实际关系,因而即使在文本中缺少实体间的上下文信息,也能够根据搜集到的证据准确判断实体间的实际关系,而不会因为上下文信息缺失对关系提取造成影响,提升了语义关系抽取的可靠性。应当理解,上述
技术实现思路
部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。附图说明图1是本申请实施例提供的一种语义关系的抽取方法的流程图;图2是本申请实施例提供的一种抽取场景示意图;图3是本申请实施例提供的一种步骤S12的执行方法流程图;图4是本申请实施例提供的一种MDP模型的结构示意图;图5是本申请实施例提供的一种语义关系抽取装置的结构示意图;图6是本申请实施例提供的一种证据查找模块52的结构示意图。具体实施方式下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。当前主流的语义关系抽取(以下简称关系抽取)方法主要以机器学习方法和深度学习方法为主。这些方法通常通过改善模型拟合句子本身特征的能力来提升关系抽取的可靠性,但是提升的效果都非常有限。导致这种结果的原因不仅与模型本身存在的缺陷有关,更重要的是还与文本中上下文信息不足、语句表达形式复杂、训练语料数量不足等原因有关。其中,关系上下文信息不足导致关系分类时容易产生歧义,是影响关系抽取可靠性的重要原因。例如在下面的英文句子“JamesCamerondirectedtheTitanicin1997.”中,表达关系的单词“directed”是个多义词,在英文中有导演电影和管理公司的含义,但是如果该英文句子所在的文本中没有关于“JamesCameron”是导演、“Titanic”是电影的上下文信息,那么就很难判断实体“JamesCameron”和“Titanic”之间的关系,从而造成关系提取失败或提取错误的问题。针对现有技术存在的上述问题,本申请实施例提供了一种语义关系抽取方案,该方案首先通过关系抽取器从文本中抽取获得实体间可能存在的一个或多个候选关系,再从信息源中查找用于支持实体间各种候选关系的证据,并根据证据的查找情况来判断实体间的实际关系。从而即使文本中缺少实体的上下文信息,也能够通过查找证据的方式确定出实体间的实际关系,进而提高语义关系抽取的可靠性。以下结合具体实施例对本申请技术方案进行详细的描述。图1是本申请实施例提供的一种语义关系的抽取方法的流程图,该方法可以由一种语义关系抽取装置来执行。参见图1,该方法包括步骤S11-S13:S11、从文本中抽取获得实体间的多个候选关系。其中,从文本中抽取实体间候选关系的方法可以参照现有技术,比如可以通过基于机器学习或神经网络学习得到的关系抽取模型从文本中提取实体间的候选关系,其中实体间的候选关系可以是一个也可以是多个,本实施例中以抽取到的候选关系为多个为例。比如,图2是本申请实施例提供的一种抽取场景示意图,如图2所示,当文本为英文语句“JamesCamerondirectedtheTitanicin1997.”时,抽取获得的候选关系有两个分别是:候选关系1:“JamesCameronmanagesTitanic”,含义为“JamesCameron”管理“Titanic”公司,候选关系2:“JamesCameronisthedirectorofTitanic”,含义为“JamesCameron”导演电影“Titanic”。当然这里仅为示例说明而不是对本申请的唯一限定。S12、针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据。本实施例所称的信息源是指预先指定的可用于获取文本数据的数据库或者网络。其中,在从信息源中查找文本证据时可采用如下方法中的任意一种,但在实际应用中可不局限于如下方法:在一种可能的方法中可以,分别将每个提取到的候选关系作为搜索的关系式在信息源中进行搜索,将搜索到的文本中包括该候选关系的文本作为文本证据。比如在上例中,可以分别将候选关系:“JamesCameronmanagesTitanic”和“JamesCameronisthedirec本文档来自技高网
...

【技术保护点】
1.一种语义关系的抽取方法,其特征在于,包括:从文本中抽取获得实体间的多个候选关系;针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。

【技术特征摘要】
1.一种语义关系的抽取方法,其特征在于,包括:从文本中抽取获得实体间的多个候选关系;针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。2.根据权利要求1所述的方法,其特征在于,所述针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据,包括:针对每个候选关系所属的关系类型,构建所述实体间符合所述关系类型的关系式;基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据。3.根据权利要求2所述的方法,其特征在于,所述基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据,包括:记录并判断基于当前关系式的查找次数;若当前关系式的查找次数达到预设次数,则在下一次查找操作中基于另一关系式查找文本证据;若当前关系式的查找次数未达到预设次数,则在下一次查找操作中继续基于当前关系式查找文本证据。4.根据权利要求2所述的方法,其特征在于,所述基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据,包括:判断本次查找操作获取到的文本证据的数量是否低于预设数量;若本次查找操作获取到的文本证据的数量高于预设数量,则在下一次查找操作中继续基于当前关系式查找文本证据;若本次查找操作获取到的文本证据的数量低于预设数量,则在下一次查找操作中基于另一关系式查找文本证据。5.根据权利要求2所述的方法,其特征在于,所述基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据,包括:根据当前关系式的查找次数和查找到的文本证据的数量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。6.根据权利要求5所述的方法,其特征在于,所述根据当前关系式的查找次数和查找到的文本证据的数量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作,包括:根据本次查找操作获取到的文本证据的数量在本次查找结果中所占据的比例,确定本次查找操作对当前所对应的候选关系的置信度的提升量;根据当前关系式的查找次数和所述提升量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。7.根据权利要求1所述的方法,其特征在于,所述基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系,包括:根据查找到的各候选关系对应的文本证据的数量在所有文本证据中占据的比例,确定各候选关系的置信度,将所述多个候选关系中置信度最高的确定为所述实体间的实际关系。8.一种语义关系抽取装置,其特征在于,包括:抽取模...

【专利技术属性】
技术研发人员:潘禄陈玉光彭卫华罗雨陈亮陈文浩周辉郑宇宏陈伟娜韩翠云
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1