基于深度学习的实体和实体关系识别方法及装置制造方法及图纸

技术编号:18444845 阅读:4 留言:0更新日期:2018-07-14 10:21
本发明专利技术公开了一种基于深度学习的实体和实体关系识别方法及装置,其中方法包括以下步骤:输入文本,并将文本转换为词向量,其中,采用实体位置、实体关系和关系位置的标记方式;通过编解码的方式对词向量进行序列标注,以获取序列标注的词向量;对模型的输出进行第二次排序,其中,选择每个单词的概率最高的预设数量的标签作为候选,并进行标签配对,以配对成功后获取正确标签。该方法采用深度学习方法结合自然语言处理技术,考虑多标签和实体重叠的情况,提出全新的关系抽取解决方案,从而提升关系抽取结果精确度,并能够处理多种复杂情况。

Entity learning and entity relationship recognition method and device based on deep learning

The present invention discloses a method and device for identifying entity and entity relationship based on deep learning. The method includes the following steps: input text and convert text into word vector, in which the sign mode of entity position, entity relationship and relation position is adopted; and the word vector is sequence labeled by codec. In order to obtain sequence tagged word vectors, the output of the model is sorted second times, in which the label of the highest probability of each word is selected as the candidate, and the label is paired to get the correct label after the match is successful. This method combines the depth learning method with Natural Language Processing technology, considering the situation of multi label and entity overlap, and proposes a new relational extraction solution to improve the accuracy of the relationship extraction results, and can handle a variety of complex situations.

【技术实现步骤摘要】
基于深度学习的实体和实体关系识别方法及装置
本专利技术涉及文本识别
,特别涉及一种基于深度学习的实体和实体关系识别方法及装置。
技术介绍
随着互联网的发展对文本进行自动的信息抽取变得越来越重要,一个典型的信息抽取任务包括实体识别和实体关系识别,从非结构化文本中进行自动的关系抽取形成三元组。目前的方法主要分为(1)基于规则的方法;(2)基于词典的方法;(3)基于机器学习的方法等。其中基于机器学习的方法是目前的研究热点,在机器学习方法中又主要分为了深度学习方法的有监督学习方法和基于远程监督的弱监督学习方法。相关技术包括多种方式,如采用了一种基于文本分词,提取主题词,聚类形成子主题,构建有向图的方法来实现实体关系识别。又如,采用了一种卷积神经网路结合远程监督的方法进行实体关系识别。基于深度神经网络的实体关系抽取方法,这种方法从字符级别、关键词级别、类别特征等进行了多个特诊的提取和拼接,最后进行实体分类。基于神经网络和注意力机制的实体关系抽取模型,从实体对和句子级别形成包含实体关系的句向量,再将其进行分类。卷积神经网络结合多种自然语言特征的表示,进行实体关系分类。然而,目前的热点方法主要分为基于深度学习的有监督学习方法和基于远程监督的弱监督学习方法,前者可以同时解决实体识别和实体关系识别的问题,即可以处理未给定实体的文本的关系抽取;后者只能解决给定实体的文本的关系抽取。因此从这一点来说基于深度学习的监督学习方法具有更好的普适性。而已有的基于深度学习的监督学习方法只考虑了从句子级别的关系分类,因此没有考虑一个句子包含多个实体关系的情况,此外也并没有处理实体关系重叠的情况。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于深度学习的实体和实体关系识别方法,该方法可以提升关系抽取结果精确度,并能够处理多种复杂情况。本专利技术的另一个目的在于提出一种基于深度学习的实体和实体关系识别装置。为达到上述目的,本专利技术一方面实施例提出了一种基于深度学习的实体和实体关系识别方法,包括以下步骤:输入文本,并将所述文本转换为词向量,其中,采用实体位置、实体关系和关系位置的标记方式;通过编解码的方式对所述词向量进行序列标注,以获取序列标注的词向量;对模型的输出进行第二次排序,其中,选择每个单词的概率最高的预设数量的标签作为候选,并进行标签配对,以配对成功后获取正确标签。本专利技术实施例的基于深度学习的实体和实体关系识别方法,通过采用最新的标记方式来进行实体识别和实体关系识别,采用深度学习方法结合自然语言处理技术,考虑多标签和实体重叠的情况,提出全新的关系抽取解决方案,从而提升关系抽取结果精确度,并能够处理多种复杂情况。另外,根据本专利技术上述实施例的基于深度学习的实体和实体关系识别方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述通过编解码的方式对所述词向量进行序列标注,进一步包括:采用双向LSTM模型,并将两个方向的LSTM网络在每个时间节点的输出进行拼接,输入到解码器的所述LSTM网络,其中,所述LSTM网络采用单向LSTM网络,对每个时间节点的隐