当前位置: 首页 > 专利查询>北京大学专利>正文

一种结合背景知识的远程监督关系抽取方法技术

技术编号:20866372 阅读:32 留言:0更新日期:2019-04-17 09:19
本发明专利技术提供了一种结合背景知识的远程监督关系抽取方法。该方法包括:对于训练数据集中的每一个包,通过句子编码器得到包中的每个句子的向量表示;利用知识库中的实体表示构建句子层级的注意力机制,为每个句子分配注意力权重,并基于各个句子的注意力权重得到每个包的唯一语义向量;利用知识库中的关系向量对包的语义向量进行关系检索;根据统一的目标函数训练整个关系抽取器。应用本发明专利技术可以缓解远程监督中的错误标注问题,提高关系预测的准确性。

【技术实现步骤摘要】
一种结合背景知识的远程监督关系抽取方法
本申请涉及自然语言处理
,尤其涉及一种结合背景知识的远程监督关系抽取方法。
技术介绍
信息抽取是自然语言处理中的重要研究领域,其任务是在大规模非结构或半结构的自然语言文本中抽取结构化信息,而关系抽取是其中的重要子任务之一。关系抽取的目的是从文本中抽取实体之间的语义关系,例如,句子“BillGatesisthefounderofMicrosoftInc.”中包含一个实体对(BillGates,Mircrosoft),关系抽取的任务是要识别出这个实体对之间具有“Founder”这一关系。有监督的学习方法将关系抽取当作分类问题,需要大量人工标注的训练语料,而人工标注语料工作非常耗时耗力。针对这个问题,基于远程监督的关系抽取方法可以利用知识库中已经存在的三元组来对齐文本语料,能够自动获得带标注的数据集。远程监督假设如果两个实体同时出现在一个句子中,那么这个句子就在某种程度上表达了实体之间的关系。基于这个假设,可以利用知识库中已经包含的三元组对齐文本语料自动标注大规模的训练数据。但是,远程监督的关系抽取方法仅仅利用知识库来标注数据,当利用标注好的数据集训练分类模型和预测关系时都忽略了知识库中蕴含的背景知识。
技术实现思路
有鉴于此,本专利技术提供了一种结合背景知识的远程监督关系抽取方法,从而可以缓解远程监督中的错误标注问题,提高关系预测的准确性。本专利技术的技术方案具体是这样实现的:一种结合背景知识的远程监督关系抽取方法,该方法包括:对于训练数据集中的每一个包,通过句子编码器得到包中的每个句子的向量表示;利用知识库中的实体表示构建句子层级的注意力机制,为每个句子分配注意力权重,并基于各个句子的注意力权重得到每个包的唯一语义向量;利用知识库中的关系向量对包的语义向量进行关系检索;根据统一的目标函数训练整个关系抽取器。较佳的,所述通过句子编码器得到包中的每个句子的向量表示包括如下步骤:将句子中的每个词分别转换为对应的词向量;构建一个包括句子中的所有词的词向量的词序列矩阵,通过卷积层对词序列矩阵进行卷积操作,从词序列矩阵中提取句子特征,得到句子的特征向量;通过池化层对句子的特征向量进行最大池化操作,得到句子的唯一向量表示。较佳的,通过如下的公式得到句子的特征向量:其中,cij为句子的特征向量,i和j表示词序列矩阵的第一个词和最后一个词在句子中的位置,1≤i≤n,1≤j≤|S|-l+1,l为滑动窗口的长度,Wi为卷积的权重矩阵,S为句子。较佳的,所述最大池化操作为分段最大池化操作;所述分段最大池化操作包括:将句子根据其所包含的头尾实体分为三段,并对每段分别进行最大池化操作;拼接所有的分段向量来构建最大池化层的输出向量;根据最大池化层的输出向量计算得到句子的唯一向量表示。较佳的,所述为每个句子分配注意力权重,并基于各个句子的注意力权重得到每个包的唯一语义向量包括:计算来自知识库的知识关系表示;计算蕴含在句子中的文本关系向量;计算知识关系表示和文本关系向量的生成概率;基于知识关系表示和文本关系向量的唯一的关系以及生成概率,得到一个关系对齐向量;利用得分函数计算每一个句子向量与关系对齐向量的相似性,并根据相似性为每一个句子计算对应的注意力权重;根据包中每个句子的语义向量和对应的注意力权重,计算得到包的语义向量。较佳的,通过如下的公式来计算蕴含在句子中的文本关系向量:其中,ct为文本关系向量,q为一个包中的句子的数量,si为包中的第i个句子对应的语义向量,为转换矩阵。较佳的,生成概率函数为:pgen=δ(laWgct+bg);其中,pgen为生成概率函数,pgen∈[0,1],δ(·)为sigmod函数,la为头实体和尾实体之间的抽象的知识关系表示,为中间矩阵,bg为偏置值。较佳的,通过如下的公式来计算关系对齐向量:其中,valign为关系对齐向量,为文本关系向量ct的转置矩阵;通过如下的公式来计算句子对应的注意力权重:其中,其中,αi为第i个句子对应的注意力权重,1≤i≤q,ei为相似性,为中间矩阵,ba为偏置值,为si的转置;通过如下的公式来计算包的语义向量:其中,b为包的语义向量。较佳的,对于包B和第i个关系ri的相似度计算公式为:其中,R(B,ri)为包B和第i个关系ri的相似度,0≤i≤u,为关系ri经过transE模型学习到的关系向量,为中间矩阵,bT为b的转置。较佳的,通过如下的公式来计算关系ri的条件概率p:其中,γ为softmax函数中的平滑因子,根据经验值预先设定;θ表示整个神经网络模型中的所有参数;通过如下的公式来计算目标函数:其中,J(θ)为目标函数。如上可见,在本专利技术中的结合背景知识的远程监督关系抽取方法中,先利用句子编码器得到包中的每个句子的向量表示;然后利用知识库中的实体表示构建句子层级的注意力机制,为每个句子分配注意力权重,得到每个包的唯一语义向量;随后再利用知识库中的关系向量对包向量进行关系检索;最后,根据统一的目标函数训练整个关系抽取器。通过上述的方法,可以先将知识库中的实体和关系表示为低维稠密的语义向量,然后将知识向量引入到远程监督关系抽取模型中,因此可以将知识库的背景知识作用于远程监督关系抽取,利用知识库中的实体向量预先得到实体对之间的抽象关系表示,用于识别训练数据集中的有效句子和无效句子,从而缓解远程监督中的错误标注问题;并可以利用知识库中的关系向量将远程监督关系抽取当作检索问题来处理,进一步提高关系预测的准确性。附图说明图1为本专利技术实施例中的结合背景知识的远程监督关系抽取方法的流程图。图2为本专利技术实施例中的基于分段卷积神经网络的句子编码器的示意图。图3为本专利技术实施例中的远程监督关系抽取模型的精确度/召回率曲线的示意图。具体实施方式为使本专利技术的技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本专利技术作进一步详细的说明。背景知识在自然语言理解中的重要性早已得到认可。早期自然语言处理系统主要利用有限的语言知识作为背景知识,例如,人工编码的形态和句法模式。随着大规模知识库的构建,例如Freebase、DBpedia和YAGO等知识库中包含了大量结构化的语义知识。因此,在本专利技术的技术方案中,提出了一种结合背景知识的远程监督关系抽取方法。图1为本专利技术实施例中的结合背景知识的远程监督关系抽取方法的流程图。如图1所示,本专利技术实施例中的结合背景知识的远程监督关系抽取方法包括如下所述步骤:步骤11,对于训练数据集中的每一个包,通过句子编码器得到包中的每个句子的向量表示。在本专利技术的技术方案中,基于远程监督的假设,在训练数据集中,来自于同一个三元组(h,r,t)的句子将构成一个包(bag),包的标签为r。可以假设训练数据集中包含N个包:{B1,B2,…,BN},远程监督关系抽取任务的目标是要基于训练数据集学习得到一个关系抽取器,用于预测新的关系。因此,在本步骤中,对于训练数据集中的每一个包,可以首先通过句子编码器得到该包中的每个句子的向量表示。另外,较佳的,在本专利技术的一个具体实施例中,对于包中的任意一个句子,所述句子编码器通过分段卷积神经网络(PCNN,PiecewiseConvolutionalNeuralNetworks)来学习句子的特征向量,从而得本文档来自技高网...

【技术保护点】
1.一种结合背景知识的远程监督关系抽取方法,其特征在于,该方法包括:对于训练数据集中的每一个包,通过句子编码器得到包中的每个句子的向量表示;利用知识库中的实体表示构建句子层级的注意力机制,为每个句子分配注意力权重,并基于各个句子的注意力权重得到每个包的唯一语义向量;利用知识库中的关系向量对包的语义向量进行关系检索;根据统一的目标函数训练整个关系抽取器。

【技术特征摘要】
1.一种结合背景知识的远程监督关系抽取方法,其特征在于,该方法包括:对于训练数据集中的每一个包,通过句子编码器得到包中的每个句子的向量表示;利用知识库中的实体表示构建句子层级的注意力机制,为每个句子分配注意力权重,并基于各个句子的注意力权重得到每个包的唯一语义向量;利用知识库中的关系向量对包的语义向量进行关系检索;根据统一的目标函数训练整个关系抽取器。2.根据权利要求1所述的方法,其特征在于,所述通过句子编码器得到包中的每个句子的向量表示包括如下步骤:将句子中的每个词分别转换为对应的词向量;构建一个包括句子中的所有词的词向量的词序列矩阵,通过卷积层对词序列矩阵进行卷积操作,从词序列矩阵中提取句子特征,得到句子的特征向量;通过池化层对句子的特征向量进行最大池化操作,得到句子的唯一向量表示。3.根据权利要求2所述的方法,其特征在于,通过如下的公式得到句子的特征向量:其中,cij为句子的特征向量,i和j表示词序列矩阵的第一个词和最后一个词在句子中的位置,1≤i≤n,1≤j≤|S|-l+1,l为滑动窗口的长度,Wi为卷积的权重矩阵,S为句子。4.根据权利要求2所述的方法,其特征在于:所述最大池化操作为分段最大池化操作;所述分段最大池化操作包括:将句子根据其所包含的头尾实体分为三段,并对每段分别进行最大池化操作;拼接所有的分段向量来构建最大池化层的输出向量;根据最大池化层的输出向量计算得到句子的唯一向量表示。5.根据权利要求1所述的方法,其特征在于,所述为每个句子分配注意力权重,并基于各个句子的注意力权重得到每个包的唯一语义向量包括:计算来自知识库的知识关系表示;计算蕴含在句子中的文本关系向量;计算知识关系表示和文本关系向量的生成概率;基于知识关系表示和文本关系...

【专利技术属性】
技术研发人员:邓可君章学妙范红杰柳军飞
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1