一种结合背景知识的远程监督关系抽取方法技术

技术编号：20866372 阅读：32 留言：0更新日期：2019-04-17 09:19

本发明专利技术提供了一种结合背景知识的远程监督关系抽取方法。该方法包括：对于训练数据集中的每一个包，通过句子编码器得到包中的每个句子的向量表示；利用知识库中的实体表示构建句子层级的注意力机制，为每个句子分配注意力权重，并基于各个句子的注意力权重得到每个包的唯一语义向量；利用知识库中的关系向量对包的语义向量进行关系检索；根据统一的目标函数训练整个关系抽取器。应用本发明专利技术可以缓解远程监督中的错误标注问题，提高关系预测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种结合背景知识的远程监督关系抽取方法
本申请涉及自然语言处理
，尤其涉及一种结合背景知识的远程监督关系抽取方法。
技术介绍
信息抽取是自然语言处理中的重要研究领域，其任务是在大规模非结构或半结构的自然语言文本中抽取结构化信息，而关系抽取是其中的重要子任务之一。关系抽取的目的是从文本中抽取实体之间的语义关系，例如，句子“BillGatesisthefounderofMicrosoftInc.”中包含一个实体对(BillGates，Mircrosoft)，关系抽取的任务是要识别出这个实体对之间具有“Founder”这一关系。有监督的学习方法将关系抽取当作分类问题，需要大量人工标注的训练语料，而人工标注语料工作非常耗时耗力。针对这个问题，基于远程监督的关系抽取方法可以利用知识库中已经存在的三元组来对齐文本语料，能够自动获得带标注的数据集。远程监督假设如果两个实体同时出现在一个句子中，那么这个句子就在某种程度上表达了实体之间的关系。基于这个假设，可以利用知识库中已经包含的三元组对齐文本语料自动标注大规模的训练数据。但是，远程监督的关系抽取方法仅仅利用知识库来标注数据，当利用标注好的数据集训练分类模型和预测关系时都忽略了知识库中蕴含的背景知识。
技术实现思路
有鉴于此，本专利技术提供了一种结合背景知识的远程监督关系抽取方法，从而可以缓解远程监督中的错误标注问题，提高关系预测的准确性。本专利技术的技术方案具体是这样实现的：一种结合背景知识的远程监督关系抽取方法，该方法包括：对于训练数据集中的每一个包，通过句子编码器得到包中的每个句子的向量表示；利用知识库中的实体表...

【技术保护点】
1.一种结合背景知识的远程监督关系抽取方法，其特征在于，该方法包括：对于训练数据集中的每一个包，通过句子编码器得到包中的每个句子的向量表示；利用知识库中的实体表示构建句子层级的注意力机制，为每个句子分配注意力权重，并基于各个句子的注意力权重得到每个包的唯一语义向量；利用知识库中的关系向量对包的语义向量进行关系检索；根据统一的目标函数训练整个关系抽取器。

【技术特征摘要】
1.一种结合背景知识的远程监督关系抽取方法，其特征在于，该方法包括：对于训练数据集中的每一个包，通过句子编码器得到包中的每个句子的向量表示；利用知识库中的实体表示构建句子层级的注意力机制，为每个句子分配注意力权重，并基于各个句子的注意力权重得到每个包的唯一语义向量；利用知识库中的关系向量对包的语义向量进行关系检索；根据统一的目标函数训练整个关系抽取器。2.根据权利要求1所述的方法，其特征在于，所述通过句子编码器得到包中的每个句子的向量表示包括如下步骤：将句子中的每个词分别转换为对应的词向量；构建一个包括句子中的所有词的词向量的词序列矩阵，通过卷积层对词序列矩阵进行卷积操作，从词序列矩阵中提取句子特征，得到句子的特征向量；通过池化层对句子的特征向量进行最大池化操作，得到句子的唯一向量表示。3.根据权利要求2所述的方法，其特征在于，通过如下的公式得到句子的特征向量：其中，cij为句子的特征向量，i和j表示词序列矩阵的第一个词和最后一个词在句子中的位置，1≤i≤n，1≤j≤|S|－l+1，l为滑动窗口的长度，Wi为卷积的权重矩阵，S为句子。4.根据权利要求2所述的方法，其特征在于：所述最大池化操作为分段最大池化操作；所述分段最大池化操作包括：将句子根据其所包含的头尾实体分为三段，并对每段分别进行最大池化操作；拼接所有的分段向量来构建最大池化层的输出向量；根据最大池化层的输出向量计算得到句子的唯一向量表示。5.根据权利要求1所述的方法，其特征在于，所述为每个句子分配注意力权重，并基于各个句子的注意力权重得到每个包的唯一语义向量包括：计算来自知识库的知识关系表示；计算蕴含在句子中的文本关系向量；计算知识关系表示和文本关系向量的生成概率；基于知识关系表示和文本关系...

【专利技术属性】
技术研发人员：邓可君，章学妙，范红杰，柳军飞，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人