基于深度学习的实体和实体关系识别方法及装置制造方法及图纸

技术编号：18444845 阅读：120 留言：0更新日期：2018-07-14 10:21

本发明专利技术公开了一种基于深度学习的实体和实体关系识别方法及装置，其中方法包括以下步骤：输入文本，并将文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式；通过编解码的方式对词向量进行序列标注，以获取序列标注的词向量；对模型的输出进行第二次排序，其中，选择每个单词的概率最高的预设数量的标签作为候选，并进行标签配对，以配对成功后获取正确标签。该方法采用深度学习方法结合自然语言处理技术，考虑多标签和实体重叠的情况，提出全新的关系抽取解决方案，从而提升关系抽取结果精确度，并能够处理多种复杂情况。

Entity learning and entity relationship recognition method and device based on deep learning

The present invention discloses a method and device for identifying entity and entity relationship based on deep learning. The method includes the following steps: input text and convert text into word vector, in which the sign mode of entity position, entity relationship and relation position is adopted; and the word vector is sequence labeled by codec. In order to obtain sequence tagged word vectors, the output of the model is sorted second times, in which the label of the highest probability of each word is selected as the candidate, and the label is paired to get the correct label after the match is successful. This method combines the depth learning method with Natural Language Processing technology, considering the situation of multi label and entity overlap, and proposes a new relational extraction solution to improve the accuracy of the relationship extraction results, and can handle a variety of complex situations.

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的实体和实体关系识别方法及装置
本专利技术涉及文本识别
，特别涉及一种基于深度学习的实体和实体关系识别方法及装置。
技术介绍
随着互联网的发展对文本进行自动的信息抽取变得越来越重要，一个典型的信息抽取任务包括实体识别和实体关系识别，从非结构化文本中进行自动的关系抽取形成三元组。目前的方法主要分为(1)基于规则的方法；(2)基于词典的方法；(3)基于机器学习的方法等。其中基于机器学习的方法是目前的研究热点，在机器学习方法中又主要分为了深度学习方法的有监督学习方法和基于远程监督的弱监督学习方法。相关技术包括多种方式，如采用了一种基于文本分词，提取主题词，聚类形成子主题，构建有向图的方法来实现实体关系识别。又如，采用了一种卷积神经网路结合远程监督的方法进行实体关系识别。基于深度神经网络的实体关系抽取方法，这种方法从字符级别、关键词级别、类别特征等进行了多个特诊的提取和拼接，最后进行实体分类。基于神经网络和注意力机制的实体关系抽取模型，从实体对和句子级别形成包含实体关系的句向量，再将其进行分类。卷积神经网络结合多种自然语言特征的表示，进行实体关系分类。然而，目前的热点方法主要分为基于深度学习的有监督学习方法和基于远程监督的弱监督学习方法，前者可以同时解决实体识别和实体关系识别的问题，即可以处理未给定实体的文本的关系抽取；后者只能解决给定实体的文本的关系抽取。因此从这一点来说基于深度学习的监督学习方法具有更好的普适性。而已有的基于深度学习的监督学习方法只考虑了从句子级别的关系分类，因此没有考虑一个句子包含多个实体关系的情况，此外也并没有处理实体关系...

【技术保护点】
1.一种基于深度学习的实体和实体关系识别方法，其特征在于，包括以下步骤：输入文本，并将所述文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式；通过编解码的方式对所述词向量进行序列标注，以获取序列标注的词向量；以及对模型的输出进行第二次排序，其中，选择每个单词的概率最高的预设数量的标签作为候选，并进行标签配对，以配对成功后获取正确标签。

【技术特征摘要】
1.一种基于深度学习的实体和实体关系识别方法，其特征在于，包括以下步骤：输入文本，并将所述文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式；通过编解码的方式对所述词向量进行序列标注，以获取序列标注的词向量；以及对模型的输出进行第二次排序，其中，选择每个单词的概率最高的预设数量的标签作为候选，并进行标签配对，以配对成功后获取正确标签。2.根据权利要求1所述的基于深度学习的实体和实体关系识别方法，其特征在于，所述通过编解码的方式对所述词向量进行序列标注，进一步包括：采用双向LSTM模型，并将两个方向的LSTM网络在每个时间节点的输出进行拼接，输入到解码器的所述LSTM网络，其中，所述LSTM网络采用单向LSTM网络，对每个时间节点的隐藏状态输出做全连接网络的转换，输入softMax选择标记。3.根据权利要求2所述的基于深度学习的实体和实体关系识别方法，其特征在于，还包括：采用多标签分类技术与神经网络的融合，采用预设的损失函数进行网络优化，所述预设的损失函数为：其中，Ei表示一个训练集，Yi表示应该有的标签，表示不应该有的标签。表示在i个单词的应该有的标签的输出概率，表示在i个单词对应的不应该有的标签的输出概率。4.根据权利要求1所述的基于深度学习的实体和实体关系识别方法，其特征在于，所述输入文本，并将所述文本转换为词向量，其中，采用实体位置、实体关系和关系位置的标记方式，还包括：采用谷歌预训练好的词向量模型进行初始化，所述词向量随着模型训练进行自动优化。5.根据权利要求4所述的基于深度学习的实体和实体关系识别方法，其特征在于，所述实体位置为一个实体的开始、结尾、单个实体、中间实体，所述实体关系为预设好的希望识别的实体关系，所述关系位置为...

【专利技术属性】
技术研发人员：鄂海红，宋美娜，胡莺夕，王晓晖，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人