一种基于语义依存图的关系提取方法技术

技术编号：21184825 阅读：23 留言：0更新日期：2019-05-22 15:26

本发明专利技术公开了一种基于语义依存图的关系提取方法。本发明专利技术包括如下步骤：步骤(1)训练双向循环卷积注意神经网络；步骤(2)读取语句数据；步骤(3)将数据输入训练好的深度神经网络，输出数据与各个关系的相关度。本发明专利技术通过引入语义依存图的信息来降低噪声数据和增强数据特征信息的方法。通过从语义依存图中提出来的实体对之间的最短路径中提取句子的特征信息。本发明专利技术通过引入语义依存图和双向循环卷积注意网络进行关系提取，通过语义依存的分析并提取的实体间最短路径，可以有效的降低远程监督学习带来的噪声数据影响，从而提高了关系提取的准确率。

A Relation Extraction Method Based on Semantic Dependency Graph

The invention discloses a relationship extraction method based on semantic dependency graph. The invention comprises the following steps: (1) training bi-directional cyclic convolution attention neural network; step (2) reading statement data; step (3) inputting the data into the trained deep neural network and outputting the correlation between the data and each relationship. The method of reducing noise data and enhancing data feature information by introducing information of semantic dependency graph. The feature information of sentences is extracted from the shortest path between entity pairs in the semantic dependency graph. By introducing the semantic dependency graph and bi-directional cyclic convolution attention network to extract the relationship, and by analyzing the semantic dependency and extracting the shortest path between entities, the influence of noise data caused by remote monitoring learning can be effectively reduced, thereby improving the accuracy of relationship extraction.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义依存图的关系提取方法
本专利技术涉及关系提取方法，具体来讲是一种基于语义依存图的关系提取方法，属于自然语言处理

技术介绍
在自然语言处理
中，最重要的任务是分析人类话语并能理解。在这个大领域中有一项十分重要的任务是如何构建知识图谱。在建立知识图谱中，如果通过人类一句话一句话的进行分析并提取实体与关系，这是十分浪费人力的。因此，我们需要通过引入深度神经网络训练模型，让模型自动提取出句子中实体的关系。目前，主要的关系提取方法有无监督学习，监督学习和远程监督学习。由于，无监督学习效果一般，监督学习效果好，但是需要大量的训练数据，标记训练数据是一项浪费资源的工作。我们采用远程监督学习，但是，在该方法中会引入大量的噪声数据，因此，我们需要改进方法降低噪声数据对模型的影响。
技术实现思路
本专利技术针对使用远程监督学习方式进行关系提取中的噪声问题，公开一种通过引入语义依存图的信息来降低噪声数据和增强数据特征信息的方法。为实现以上的技术目的，本专利技术将采用以下的技术方案：步骤(1)训练双向循环卷积注意神经网络；步骤(2)读取语句数据；步骤(3)将数据输入训练好的深度神经网络，输出数据与各个关系的相关度；步骤(1)包括如下步骤：步骤A对输入数据进行语义分析，提取实体对的最短路径，并编码整理序列化；所述的最短路径包含词和依赖关系边；步骤B构建双向循环卷积注意神经网络，确定双向循环卷积注意神经网络每一层的输入输出的向量维度、计算方式、训练方式；步骤C特征提取，将处理好的数据和对应的结果标签输入到双向循环卷积注意神经网络中，提取出每个组的特征；步骤D对...

【技术保护点】
1.一种基于语义依存图的关系提取方法，其特征在于包括如下步骤：步骤(1)训练双向循环卷积注意神经网络；步骤(2)读取语句数据；步骤(3)将数据输入训练好的深度神经网络，输出数据与各个关系的相关度；步骤(1)包括如下步骤：步骤A对输入数据进行语义分析，提取实体对的最短路径，并编码整理序列化；所述的最短路径包含词和依赖关系边；步骤B构建双向循环卷积注意神经网络，确定双向循环卷积注意神经网络每一层的输入输出的向量维度、计算方式、训练方式；步骤C特征提取，将处理好的数据和对应的结果标签输入到双向循环卷积注意神经网络中，提取出每个组的特征；步骤D对于步骤C中的每个组，计算组的特征与结果候选集中每个关系的相关度，将相关度最大的作为该组提取的结果；步骤E利用交叉熵损失函数计算结果与标签的误差，并调整双向循环卷积注意神经网络中的参数。

【技术特征摘要】
1.一种基于语义依存图的关系提取方法，其特征在于包括如下步骤：步骤(1)训练双向循环卷积注意神经网络；步骤(2)读取语句数据；步骤(3)将数据输入训练好的深度神经网络，输出数据与各个关系的相关度；步骤(1)包括如下步骤：步骤A对输入数据进行语义分析，提取实体对的最短路径，并编码整理序列化；所述的最短路径包含词和依赖关系边；步骤B构建双向循环卷积注意神经网络，确定双向循环卷积注意神经网络每一层的输入输出的向量维度、计算方式、训练方式；步骤C特征提取，将处理好的数据和对应的结果标签输入到双向循环卷积注意神经网络中，提取出每个组的特征；步骤D对于步骤C中的每个组，计算组的特征与结果候选集中每个关系的相关度，将相关度最大的作为该组提取的结果；步骤E利用交叉熵损失函数计算结果与标签的误差，并调整双向循环卷积注意神经网络中的参数。2.根据权利要求1所述的基于语义依存图的关系提取方法，其特征在于，步骤A具体为：首先，将训练数据按照标签分组；其次，使用NLP分析工具将自然语言句子进行语义依存分析，得到相应的语义依存图；根据自然语言句子中的实体对和得到的语义依存图，使用改进后的最短路径迪杰斯特拉算法，提取出多条实体对之间的最短路径；所述的改进后的最短路径迪杰斯特拉算法，具体是在原算法基础上加入一个PATH数据表记录每个图中节点在最短路径中的前一跳是哪个节点。3.根据权利要求2所述的基于语义依存图的关系提取方法，其特征在于步骤B中，所述的双向循环卷积注意神经网络由BCNN网络架构改进实现，首先由一个双向循环网络对最短路径进行编码，每条最短路径循环次数限制为15次；再使用卷积网络与池化层提取编码后的最短路径的特征，卷积网络中采用200个过滤器；然后用注意力网络计算每条最短路径在当前组中的权重。4.根据权利要求3所述的基于语义依存图的关系提取方法，其特征在于双向循环卷积注意神经网络采用远程监督学习训练，网络自底向上的流...

【专利技术属性】
技术研发人员：姜明，何杰成，张旻，汤景凡，滕海滨，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人