实体关系识别方法、装置及计算机可读存储介质制造方法及图纸

技术编号：26598894 阅读：21 留言：0更新日期：2020-12-04 21:21

一种实体关系识别方法、装置及计算机可读存储介质，所述实体关系识别方法，包括：将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别，其中，所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的，所述人工特征包括以下至少一种：句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目；输出所述待识别文本中的预设各实体之间的实体关系的识别结果。采用上述方案，能够兼顾实体关系识别的准确度的同时，提高可解释性。

全部详细技术资料下载

【技术实现步骤摘要】
实体关系识别方法、装置及计算机可读存储介质
本专利技术实施例涉及自然语言处理
，尤其涉及一种实体关系识别方法、装置及计算机可读存储介质。
技术介绍
信息抽取的主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据(Structuring)。关系抽取是其重要的子任务，主要从文本中识别出实体(Entities)，抽取实体之间的语义关系。目前，常用的关系抽取主要为以下三种：有监督的学习方法、半监督的学习方法和无监督的学习。有监督的学习方法将关系抽取任务当做分类问题，根据训练数据设计有效的特征，从而学习各种分类模型，然后使用训练好的分类器预测关系。半监督的学习方法主要采用Bootstrapping进行关系抽取，对于要抽取的关系，半监督的学习方法首先手工设定若干种子实例，然后迭代地从数据中抽取关系对应的关系模板和更多的实例。无监督的学习方法假设拥有相同语义关系的实体对拥有相似的上下文信息，因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系，并对所有实体对的语义关系进行聚类。然而，有监督的学习方法需要大量的人工标注训练语料，而语料标注工作通常非常耗时耗力。虽然，有监督的学习方法能够抽取更有效的特征，其准确率和召回率都更高，但特征工程实质上由模型替代，可解释性较差。无监督的学习方法包含有较强的实体关系上下文的假设，很难符合实际文本中实体关系的分布情况。半监督的学习方法所抽取到的实体关系结果包含很多噪音，准确性较低。
技术实现思路
本专利技术实施例解决的技术问题是如何兼顾...

【技术保护点】
1.一种实体关系识别方法，其特征在于，包括：/n将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别，其中，所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的，所述人工特征包括以下至少一种：句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目；/n输出所述待识别文本中的预设各实体之间的实体关系的识别结果。/n

【技术特征摘要】
1.一种实体关系识别方法，其特征在于，包括：
将待识别文本输入至预设的基于人工特征及注意力机制的循环神经网络模型进行实体关系识别，其中，所述基于人工特征及注意力机制的循环神经网络模型是基于训练样本文本及所述训练样本文本的句子级别的人工特征训练得到的，所述人工特征包括以下至少一种：句子的长度、句子中所包括的实体对之间的语义距离以及句子中所包括的实体的数目；
输出所述待识别文本中的预设各实体之间的实体关系的识别结果。

2.根据权利要求1所述的实体关系识别方法，其特征在于，采用如下方式训练得到所述基于人工特征及注意力机制的循环神经网络模型：
基于所述训练样本文本进行词向量训练，得到所述训练样本文本对应的词向量及句向量；
对所述训练样本文本进行短句变换处理，得到预设长度的短句；
根据预设的实体关系标注文件，分别得到正样本和负样本，其中，所述正样本为：包括具有实体关系的实体对所对应的短句；所述负样本为：包括不具有实体关系的实体对所对应的短句；
从所述短句中抽取句子级别的人工特征；
将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至循环神经网络模型中进行迭代训练，直至所述循环神经网络模型中的预设参数收敛，得到所述基于人工特征及注意力机制的循环神经网络模型。

3.根据权利要求2所述的实体关系识别方法，其特征在于，在所述循环神经网络模型中的预设参数收敛之后，还包括：
采用测试样本文本对预设参数收敛后的循环神经网络模型进行测试；
判断所述预设参数收敛后的循环神经网络模型的测试指标是否达到设定指标；
当所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标后，得到所述基于人工特征及注意力机制的循环神经网络模型；
当所述预设参数收敛后的循环神经网络模型的测试指标没有达到设定指标时，继续采用所述训练样本文本对所述预设参数收敛后的循环神经网络模型进行迭代训练，直至所述预设参数收敛后的循环神经网络模型的测试指标达到设定指标。

4.根据权利要求2所述的实体关系识别方法，其特征在于，所述将所述训练样本文本对应的句向量及各短句对应的人工特征分别输入至所述循环神经网络模型中进行迭代训练，包括：
将所述各短句对应的人工特征转换成对应的向量；
将所述训练样本文本对应的句向量以及所述各短句对应的人工特征转换成对应的向量合并至同一个向量内；
将合并得到的向量输入至所述循环神经网络模型中进行迭代训练。

5.根据权利要求2或3所述的实体关系识别方法，其特征在于，采用以下至少一种方式对所述训练样本文本中的句子进行短句变换处理，得到预设长度的短句：
按照预设的标点符号，对所述训练样本文本进行短句切分；
当短句的长度小于预设长度时，按照预定的拼接方式，将长度小于预设长度的短句拼入相邻短句；
当短句的长度大于预设长度时，按照预设的截取条件，截取所述短句中不包含实体的部分并丢弃，将剩下的包含实体的部分拼接形成新的短句。

6.根据权利要求2或3所述的实体关系识别方法，其特征在于，在对所述训练样本文本进行短句变换处理时，还包括：
丢弃不包括实体对的句子。

7.根据权利要求1所述的实体关系识别方法，其特征在于，所述输出所述待识别文本中的预设各实体之间的实体关系的识别结果，包括：
输出所述待识别文本中包括预设实体且所述实体对之间具有实体关系的内容以及实体关系类别。

8.根据权利要求1所述的实体关系识别方法，其特征在于，所述基于人工特征及注意力机制的循环神经网络模型，包括：输入层、字嵌入层、门控循环单元层、全连接层及输出层，其中：
所述待识别文本从所述输入层输入至所述基于人工特征及注意力机制的循环神经网络模型，所述字嵌入层对所述待识别文本进行向量化处理，得到字向量；所述门控循环单元层对所述待识别文本进行人工特征抽取，得到所述待识别文本对应的句子级别的人工特征；所述全连接层根据所述字嵌入层的向量化处理结果，对所述待识别文本进行转换，得到预设长度的向量；所述输出层基于预设长度的响度进行实体识别，得到待识别文本中的预设各实体之间的实体关系的识别结果。

9.一种实体关系识别装置，其特征在于，包括：
输入单元，适于将待识别文本输入至预设的基于人工特征及注意力机制的循环神...

【专利技术属性】
技术研发人员：汤奇峰，宋杭科，
申请(专利权)人：上海晶赞融宣科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人