一种关系抽取方法及系统技术方案

技术编号：20389922 阅读：23 留言：0更新日期：2019-02-20 02:52

本发明专利技术实施例提供一种关系抽取方法及系统，该方法包括：获取包含实体对的句子，根据所述句子得到对应的实例特征向量；基于关系层次的注意力机制，根据所述实例特征向量，得到不同层的实体对潜在关系；根据所述不同层的实体对潜在关系，抽取所述实体对的关系。本发明专利技术实施例提供的关系抽取方法和系统，通过引入关系的层次结构信息构建了一套层级结构的注意力机制使得关系抽取模型能够考虑关系之间的内在关联，从而提高了关系抽取模型的稳定性，并在缺少训练数据的长尾关系上表现突出，实现关系抽取模型的性能也能够极大提升，具有良好的实用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种关系抽取方法及系统
本专利技术涉及自然语言处理领域，尤其涉及一种关系抽取方法及系统。
技术介绍
关系抽取旨在从互联网的非结构化文本中挖掘知识。手动标记训练数据是非常人力密集的行动且相当的耗时，因而传统的基于监督的关系抽取模型通常受限于缺乏大规模高质量训练数据的现实环境。为了解决这样的数据缺乏问题，基于远距离监督的关系抽取模型被提出，将已有的知识图谱与非结构化文本进行对齐，在知识图谱的指引下从非结构化文本中自动标记训练数据。知识图谱通常以头实体、尾实体与实体之间关系这样的三元组形式存在，对于任意出现在知识图谱中的头尾实体对，如果它们同时出现在某一段文本句子之中，那么远距离监督会自动地将这个句子标注为头尾实体在知识图谱中对应的关系。通过远距离监督，关系抽取可以自动获得大规模的训练数据，从而能够在现实环境下的大规模语料库上适用。然而，这种自动标注机制不可避免地伴随着错误标注问题，因为并非所有包含两个实体的句子都能够在语义层面严格准确地表达他们的关系，因而远距离监督的噪音问题在当前依然是十分棘手的问题。为了缓解错误标注带来的噪音问题，之前不少工作被提出来从噪声数据中识别出有效的训练样例，从而支持关系抽取模型在正确的轨道上进行训练，尤其是不少当下较为主流的基于注意力的神经关系抽取模型。然而，在现有的方法中，模型对于每个关系都是孤立开来进行处理的，对于每一个单一的关系，通常存在单独的处理模型来从带有噪音的数据中选择与关系最相关的训练实例。这些方法均忽略了关系之间丰富的语义相关性，尤其是蕴含在关系层次结构中的关系相关性信息，导致效果不够稳定，数据噪音带来的直接影响较...

【技术保护点】
1.一种关系抽取方法，其特征在于，包括：获取包含实体对的句子，根据所述句子得到对应的实例特征向量；基于关系层次的注意力机制，根据所述实例特征向量，得到不同层的实体对潜在关系；根据所述不同层的实体对潜在关系，抽取所述实体对的关系。

【技术特征摘要】
1.一种关系抽取方法，其特征在于，包括：获取包含实体对的句子，根据所述句子得到对应的实例特征向量；基于关系层次的注意力机制，根据所述实例特征向量，得到不同层的实体对潜在关系；根据所述不同层的实体对潜在关系，抽取所述实体对的关系。2.根据权利要求1所述的方法，其特征在于，所述根据所述句子得到对应的实例特征向量，具体包括：将所述句子中的每个单词转化为对应的输入词向量；基于卷积神经网络，根据所述输入词向量得到所述对应的实例特征向量。3.根据权利要求2所述的方法，其特征在于，所述将所述句子中的每个单词转化为对应的输入词向量，具体包括：对于所述句子中的每个单词，采用Skip-Gram算法获取对应的文本词向量，根据每个单词到所述实体对的距离获取对应的位置向量；将所述文本词向量和所述位置向量拼接，得到对应的输入词向量。4.根据权利要求2所述的方法，其特征在于，所述卷积神经网络包括基本卷积神经网络或分块卷积神经网络。5.根据权利要求1所述的方法，其特征在于，所述基于关系层次的注意力机制，根据所述实例特征向量，得到不同层的实体对潜在关系，具体包括：基于基础注意力机制，根据所述实例特征向量，得到对应的实体对潜在关系；根据预设的关系数据集合和所述实体对潜在关系，构建对应的层次链条；根据所述层次链条，在关系层次的每一层执行注意力操作，得到所述不同层...

【专利技术属性】
技术研发人员：刘知远，韩旭，于鹏飞，孙茂松，李鹏，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人