当前位置: 首页 > 专利查询>清华大学专利>正文

一种关系抽取方法及系统技术方案

技术编号:20389922 阅读:23 留言:0更新日期:2019-02-20 02:52
本发明专利技术实施例提供一种关系抽取方法及系统,该方法包括:获取包含实体对的句子,根据所述句子得到对应的实例特征向量;基于关系层次的注意力机制,根据所述实例特征向量,得到不同层的实体对潜在关系;根据所述不同层的实体对潜在关系,抽取所述实体对的关系。本发明专利技术实施例提供的关系抽取方法和系统,通过引入关系的层次结构信息构建了一套层级结构的注意力机制使得关系抽取模型能够考虑关系之间的内在关联,从而提高了关系抽取模型的稳定性,并在缺少训练数据的长尾关系上表现突出,实现关系抽取模型的性能也能够极大提升,具有良好的实用性。

【技术实现步骤摘要】
一种关系抽取方法及系统
本专利技术涉及自然语言处理领域,尤其涉及一种关系抽取方法及系统。
技术介绍
关系抽取旨在从互联网的非结构化文本中挖掘知识。手动标记训练数据是非常人力密集的行动且相当的耗时,因而传统的基于监督的关系抽取模型通常受限于缺乏大规模高质量训练数据的现实环境。为了解决这样的数据缺乏问题,基于远距离监督的关系抽取模型被提出,将已有的知识图谱与非结构化文本进行对齐,在知识图谱的指引下从非结构化文本中自动标记训练数据。知识图谱通常以头实体、尾实体与实体之间关系这样的三元组形式存在,对于任意出现在知识图谱中的头尾实体对,如果它们同时出现在某一段文本句子之中,那么远距离监督会自动地将这个句子标注为头尾实体在知识图谱中对应的关系。通过远距离监督,关系抽取可以自动获得大规模的训练数据,从而能够在现实环境下的大规模语料库上适用。然而,这种自动标注机制不可避免地伴随着错误标注问题,因为并非所有包含两个实体的句子都能够在语义层面严格准确地表达他们的关系,因而远距离监督的噪音问题在当前依然是十分棘手的问题。为了缓解错误标注带来的噪音问题,之前不少工作被提出来从噪声数据中识别出有效的训练样例,从而支持关系抽取模型在正确的轨道上进行训练,尤其是不少当下较为主流的基于注意力的神经关系抽取模型。然而,在现有的方法中,模型对于每个关系都是孤立开来进行处理的,对于每一个单一的关系,通常存在单独的处理模型来从带有噪音的数据中选择与关系最相关的训练实例。这些方法均忽略了关系之间丰富的语义相关性,尤其是蕴含在关系层次结构中的关系相关性信息,导致效果不够稳定,数据噪音带来的直接影响较大,关系抽取的效果不佳。
技术实现思路
本专利技术实施例为克服上述技术缺陷,提供一种关系抽取方法及系统。第一方面,本专利技术实施例提供一种关系抽取方法,包括:获取包含实体对的句子,根据所述句子得到对应的实例特征向量;基于关系层次的注意力机制,根据所述实例特征向量,得到不同层的实体对潜在关系;根据所述不同层的实体对潜在关系,抽取所述实体对的关系。第二方面,本专利技术实施例提供一种关系抽取系统,包括:句子编码器模块,用于获取包含实体对的句子,根据所述句子得到对应的实例特征向量;层次化注意力模块,用于基于关系层次的注意力机制,根据所述实例特征向量,得到不同层的实体对潜在关系;抽取模块,用于根据所述不同层的实体对潜在关系,抽取所述实体对的关系。第三方面,本专利技术实施例提供一种电子设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面所述的方法。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述关系抽取方法。本专利技术实施例提供的关系抽取方法和系统,通过引入关系的层次结构信息构建了一套层级结构的注意力机制使得关系抽取模型能够考虑关系之间的内在关联,从而提高了关系抽取模型的稳定性,并在缺少训练数据的长尾关系上表现突出,实现关系抽取模型的性能也能够极大提升,具有良好的实用性。附图说明图1为本专利技术实施例一种关系抽取方法的流程示意图;图2为本专利技术实施例基于关系层次结构注意力机制的关系抽取示意图;图3为本专利技术实施例一种关系抽取系统的结构示意图;图4为本专利技术实施例基于关系层次结构注意力机制的关系抽取的装置结构图;图5为本专利技术实施例一种电子设备的实体结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例一种关系抽取方法的流程示意图,如图1所示,包括:步骤11,获取包含实体对的句子,根据所述句子得到对应的实例特征向量;步骤12,基于关系层次的注意力机制,根据所述实例特征向量,得到不同层的实体对潜在关系;步骤13,根据所述不同层的实体对潜在关系,抽取所述实体对的关系。关系抽取是信息抽取的重要子任务,其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,从文本中识别出实体,抽取实体间的语义关系。现有主流关系抽取技术分为有监督关系抽取,无监督关系抽取,和半监督关系抽取三种方法,其中,有监督的学习方法是目前关系抽取中较为主流和表现较好的方法。有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系,但其最大的缺点就是需要大量的人工标注语料,远程监督方法就由此孕育而生。远程监督方法,将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,从而训练关系抽取器。但是远距离监督的噪音问题在当前是一个十分棘手的问题。在现有的方法中,模型对于每个关系都是孤立开来进行处理的,对于每一个单一的关系,通常存在单独的处理模型来从带有噪音的数据中选择与关系最相关的训练实例。这些方法均忽略了关系之间丰富的语义相关性,尤其是蕴含在关系层次结构中的关系相关性信息,导致效果不够稳定,数据噪音带来的直接影响较大,关系抽取的效果不佳。为了利用关系之间丰富的相关性信息,我们从关系的层次结构出发,提出了一种新颖的基于关系层次的注意力机制方案。与过去的实用层次信息的模型不同,我们没有直接利用层次信息作为模型的输入特征,而是将层次信息有机地融入到模型之中来强化模型效果。与以往的基于注意力机制的关系抽取模型不同,我们的关系层次注意力机制会沿着关系的层级结构在每层上都对训练数据中的每一个实例进行评估与考量,并结合各层次的结果共同选择有效地训练实例。本专利技术实施例中,首先输入包含两个实体的句子作为实例,两个实体其中一个为头实体,另一个为尾实体,头实体和尾实体组成一个实体对。关系抽取的目的就是得到头实体和尾实体的关系。句子是由若干单词组成的,给定一个句子,首先将句子中的所有单词转化为对应的输入词向量,再将得到的一系列输入词向量组合成其对应的实例特征向量。得到实例特征向量后,对它们应用基于关系层次的注意力机制,来从中选择有信息量的成分,根据实例特征向量,得到对应的实体对潜在关系,根据关系数据集合和实体对潜在关系,构建对应的层次链条,根据层次链条,在关系层次的每一层执行注意力操作,得到整体框架部分里的不同层的实体对潜在关系。得到不同层的实体对潜在关系后,结合关系表示矩阵得到实体对在各类关系上的概率分布,其中关系表示矩阵是用于进行关系评分计算的。根据实体对在各类关系上的概率分布,可以获得实体对可能的关系集合,并根据关系集合最终抽取实体对的关系。图2为本专利技术实施例基于关系层次结构注意力机制的关系抽取示意图,如图2所示,头实体为ErnstHaefliger,尾实体为Davos,ErnstHaefliger和Davos的关系有三种可能,分别是:第一种-ErnstHaefligerdiedonSaturdayinDavos;第二种-ErnstHaefligerwasborninDavosonJuly6,1919;本文档来自技高网
...

【技术保护点】
1.一种关系抽取方法,其特征在于,包括:获取包含实体对的句子,根据所述句子得到对应的实例特征向量;基于关系层次的注意力机制,根据所述实例特征向量,得到不同层的实体对潜在关系;根据所述不同层的实体对潜在关系,抽取所述实体对的关系。

【技术特征摘要】
1.一种关系抽取方法,其特征在于,包括:获取包含实体对的句子,根据所述句子得到对应的实例特征向量;基于关系层次的注意力机制,根据所述实例特征向量,得到不同层的实体对潜在关系;根据所述不同层的实体对潜在关系,抽取所述实体对的关系。2.根据权利要求1所述的方法,其特征在于,所述根据所述句子得到对应的实例特征向量,具体包括:将所述句子中的每个单词转化为对应的输入词向量;基于卷积神经网络,根据所述输入词向量得到所述对应的实例特征向量。3.根据权利要求2所述的方法,其特征在于,所述将所述句子中的每个单词转化为对应的输入词向量,具体包括:对于所述句子中的每个单词,采用Skip-Gram算法获取对应的文本词向量,根据每个单词到所述实体对的距离获取对应的位置向量;将所述文本词向量和所述位置向量拼接,得到对应的输入词向量。4.根据权利要求2所述的方法,其特征在于,所述卷积神经网络包括基本卷积神经网络或分块卷积神经网络。5.根据权利要求1所述的方法,其特征在于,所述基于关系层次的注意力机制,根据所述实例特征向量,得到不同层的实体对潜在关系,具体包括:基于基础注意力机制,根据所述实例特征向量,得到对应的实体对潜在关系;根据预设的关系数据集合和所述实体对潜在关系,构建对应的层次链条;根据所述层次链条,在关系层次的每一层执行注意力操作,得到所述不同层...

【专利技术属性】
技术研发人员:刘知远韩旭于鹏飞孙茂松李鹏
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1