基于深度学习的实体和实体关系识别方法及装置制造方法及图纸

技术编号:18444845 阅读:120 留言:0更新日期:2018-07-14 10:21
本发明专利技术公开了一种基于深度学习的实体和实体关系识别方法及装置,其中方法包括以下步骤:输入文本,并将文本转换为词向量,其中,采用实体位置、实体关系和关系位置的标记方式;通过编解码的方式对词向量进行序列标注,以获取序列标注的词向量;对模型的输出进行第二次排序,其中,选择每个单词的概率最高的预设数量的标签作为候选,并进行标签配对,以配对成功后获取正确标签。该方法采用深度学习方法结合自然语言处理技术,考虑多标签和实体重叠的情况,提出全新的关系抽取解决方案,从而提升关系抽取结果精确度,并能够处理多种复杂情况。

Entity learning and entity relationship recognition method and device based on deep learning

The present invention discloses a method and device for identifying entity and entity relationship based on deep learning. The method includes the following steps: input text and convert text into word vector, in which the sign mode of entity position, entity relationship and relation position is adopted; and the word vector is sequence labeled by codec. In order to obtain sequence tagged word vectors, the output of the model is sorted second times, in which the label of the highest probability of each word is selected as the candidate, and the label is paired to get the correct label after the match is successful. This method combines the depth learning method with Natural Language Processing technology, considering the situation of multi label and entity overlap, and proposes a new relational extraction solution to improve the accuracy of the relationship extraction results, and can handle a variety of complex situations.

【技术实现步骤摘要】
基于深度学习的实体和实体关系识别方法及装置
本专利技术涉及文本识别
,特别涉及一种基于深度学习的实体和实体关系识别方法及装置。
技术介绍
随着互联网的发展对文本进行自动的信息抽取变得越来越重要,一个典型的信息抽取任务包括实体识别和实体关系识别,从非结构化文本中进行自动的关系抽取形成三元组。目前的方法主要分为(1)基于规则的方法;(2)基于词典的方法;(3)基于机器学习的方法等。其中基于机器学习的方法是目前的研究热点,在机器学习方法中又主要分为了深度学习方法的有监督学习方法和基于远程监督的弱监督学习方法。相关技术包括多种方式,如采用了一种基于文本分词,提取主题词,聚类形成子主题,构建有向图的方法来实现实体关系识别。又如,采用了一种卷积神经网路结合远程监督的方法进行实体关系识别。基于深度神经网络的实体关系抽取方法,这种方法从字符级别、关键词级别、类别特征等进行了多个特诊的提取和拼接,最后进行实体分类。基于神经网络和注意力机制的实体关系抽取模型,从实体对和句子级别形成包含实体关系的句向量,再将其进行分类。卷积神经网络结合多种自然语言特征的表示,进行实体关系分类。然而,目前的热点方法主要分为基于深度学习的有监督学习方法和基于远程监督的弱监督学习方法,前者可以同时解决实体识别和实体关系识别的问题,即可以处理未给定实体的文本的关系抽取;后者只能解决给定实体的文本的关系抽取。因此从这一点来说基于深度学习的监督学习方法具有更好的普适性。而已有的基于深度学习的监督学习方法只考虑了从句子级别的关系分类,因此没有考虑一个句子包含多个实体关系的情况,此外也并没有处理实体关系重叠的情况。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于深度学习的实体和实体关系识别方法,该方法可以提升关系抽取结果精确度,并能够处理多种复杂情况。本专利技术的另一个目的在于提出一种基于深度学习的实体和实体关系识别装置。为达到上述目的,本专利技术一方面实施例提出了一种基于深度学习的实体和实体关系识别方法,包括以下步骤:输入文本,并将所述文本转换为词向量,其中,采用实体位置、实体关系和关系位置的标记方式;通过编解码的方式对所述词向量进行序列标注,以获取序列标注的词向量;对模型的输出进行第二次排序,其中,选择每个单词的概率最高的预设数量的标签作为候选,并进行标签配对,以配对成功后获取正确标签。本专利技术实施例的基于深度学习的实体和实体关系识别方法,通过采用最新的标记方式来进行实体识别和实体关系识别,采用深度学习方法结合自然语言处理技术,考虑多标签和实体重叠的情况,提出全新的关系抽取解决方案,从而提升关系抽取结果精确度,并能够处理多种复杂情况。另外,根据本专利技术上述实施例的基于深度学习的实体和实体关系识别方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述通过编解码的方式对所述词向量进行序列标注,进一步包括:采用双向LSTM模型,并将两个方向的LSTM网络在每个时间节点的输出进行拼接,输入到解码器的所述LSTM网络,其中,所述LSTM网络采用单向LSTM网络,对每个时间节点的隐藏状态输出做全连接网络的转换,输入softMax选择标记。进一步地,在本专利技术的一个实施例中,上述方法还包括:采用多标签分类技术与神经网络的融合,采用预设的损失函数进行网络优化,所述预设的损失函数为:其中,Ei表示一个训练集,Yi表示应该有的标签,表示不应该有的标签。表示在i个单词的应该有的标签的输出概率,表示在i个单词对应的不应该有的标签的输出概率。进一步地,在本专利技术的一个实施例中,所述输入文本,并将所述文本转换为词向量,其中,采用实体位置、实体关系和关系位置的标记方式,还包括:采用谷歌预训练好的词向量模型进行初始化,所述词向量随着模型训练进行自动优化。进一步地,在本专利技术的一个实施例中,所述实体位置为一个实体的开始、结尾、单个实体、中间实体,所述实体关系为预设好的希望识别的实体关系,所述关系位置为该实体是这个实体关系的主语还是宾语。为达到上述目的,本专利技术另一方面实施例提出了一种基于深度学习的实体和实体关系识别装置,包括:词向量模块,用于输入文本,并将所述文本转换为词向量,其中,采用实体位置、实体关系和关系位置的标记方式;序列标注模块,用于通过编解码的方式对所述词向量进行序列标注,以获取序列标注的词向量;re-rank模块,用于对模型的输出进行第二次排序,其中,选择每个单词的概率最高的预设数量的标签作为候选,并进行标签配对,以配对成功后获取正确标签。本专利技术实施例的基于深度学习的实体和实体关系识别装置,通过采用最新的标记方式来进行实体识别和实体关系识别,采用深度学习方法结合自然语言处理技术,考虑多标签和实体重叠的情况,提出全新的关系抽取解决方案,从而提升关系抽取结果精确度,并能够处理多种复杂情况。另外,根据本专利技术上述实施例的基于深度学习的实体和实体关系识别装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述序列标注模块还用于采用双向LSTM模型,并将两个方向的LSTM网络在每个时间节点的输出进行拼接,输入到解码器的所述LSTM网络,其中,所述LSTM网络采用单向LSTM网络,对每个时间节点的隐藏状态输出做全连接网络的转换,输入softMax选择标记。进一步地,在本专利技术的一个实施例中,采用多标签分类技术与神经网络的融合,采用预设的损失函数进行网络优化,所述预设的损失函数为:其中,Ei表示一个训练集,Yi表示应该有的标签,表示不应该有的标签。表示在i个单词的应该有的标签的输出概率,表示在i个单词对应的不应该有的标签的输出概率。进一步地,在本专利技术的一个实施例中,所述词向量模块还用于采用谷歌预训练好的词向量模型进行初始化,所述词向量随着模型训练进行自动优化。进一步地,在本专利技术的一个实施例中,所述实体位置为一个实体的开始、结尾、单个实体、中间实体,所述实体关系为预设好的希望识别的实体关系,所述关系位置为该实体是这个实体关系的主语还是宾语。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的基于深度学习的实体和实体关系识别方法的流程图;图2为根据本专利技术一个实施例的实体识别和实体关系识别模型流程图;图3为根据本专利技术一个实施例的编码过程流程图;图4为根据本专利技术一个实施例的平台的服务架构示意图;图5为根据本专利技术一个实施例的基于深度学习的实体和实体关系识别装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。在介绍基于深度学习的实体和实体关系识别方法及装置之前,先简单介绍一下相关技术的文本处理方法。随着互联网技术日新月异的发展,人们需要处理的数据量激增,领域交叉现象突出,如何快速高效地从这些开放领域的文本中抽取出有效信息,从而为经济社会发展本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的实体和实体关系识别方法,其特征在于,包括以下步骤:输入文本,并将所述文本转换为词向量,其中,采用实体位置、实体关系和关系位置的标记方式;通过编解码的方式对所述词向量进行序列标注,以获取序列标注的词向量;以及对模型的输出进行第二次排序,其中,选择每个单词的概率最高的预设数量的标签作为候选,并进行标签配对,以配对成功后获取正确标签。

【技术特征摘要】
1.一种基于深度学习的实体和实体关系识别方法,其特征在于,包括以下步骤:输入文本,并将所述文本转换为词向量,其中,采用实体位置、实体关系和关系位置的标记方式;通过编解码的方式对所述词向量进行序列标注,以获取序列标注的词向量;以及对模型的输出进行第二次排序,其中,选择每个单词的概率最高的预设数量的标签作为候选,并进行标签配对,以配对成功后获取正确标签。2.根据权利要求1所述的基于深度学习的实体和实体关系识别方法,其特征在于,所述通过编解码的方式对所述词向量进行序列标注,进一步包括:采用双向LSTM模型,并将两个方向的LSTM网络在每个时间节点的输出进行拼接,输入到解码器的所述LSTM网络,其中,所述LSTM网络采用单向LSTM网络,对每个时间节点的隐藏状态输出做全连接网络的转换,输入softMax选择标记。3.根据权利要求2所述的基于深度学习的实体和实体关系识别方法,其特征在于,还包括:采用多标签分类技术与神经网络的融合,采用预设的损失函数进行网络优化,所述预设的损失函数为:其中,Ei表示一个训练集,Yi表示应该有的标签,表示不应该有的标签。表示在i个单词的应该有的标签的输出概率,表示在i个单词对应的不应该有的标签的输出概率。4.根据权利要求1所述的基于深度学习的实体和实体关系识别方法,其特征在于,所述输入文本,并将所述文本转换为词向量,其中,采用实体位置、实体关系和关系位置的标记方式,还包括:采用谷歌预训练好的词向量模型进行初始化,所述词向量随着模型训练进行自动优化。5.根据权利要求4所述的基于深度学习的实体和实体关系识别方法,其特征在于,所述实体位置为一个实体的开始、结尾、单个实体、中间实体,所述实体关系为预设好的希望识别的实体关系,所述关系位置为...

【专利技术属性】
技术研发人员:鄂海红宋美娜胡莺夕王晓晖
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1