实体关系识别方法及装置、存储介质、计算机设备制造方法及图纸

技术编号:22565176 阅读:19 留言:0更新日期:2019-11-16 12:03
本申请公开了实体关系识别方法及装置、存储介质、计算机设备,涉及信息处理技术领域,能够有效提升对实体关系的识别准确度。其中方法包括:利用预设的第一实体关系识别模型,根据获取到的待识别文本得到待识别文本的文本向量;根据待识别文本的文本向量得到所述文本向量的卷积运算结果;根据所述文本向量和得到的卷积运算结果,确定待识别文本中包含的实体关系;其中,所述预设的第一实体关系识别模型是基于可信训练样本集训练得到的。本申请适用于文本实体关系的识别。

Entity relationship identification method and device, storage medium and computer equipment

The application discloses entity relationship recognition method and device, storage medium and computer equipment, which relate to the field of information processing technology and can effectively improve the recognition accuracy of entity relationship. The method includes: using the preset first entity relation recognition model, obtaining the text vector of the text to be recognized according to the acquired text to be recognized; obtaining the convolution operation result of the text vector according to the text vector to be recognized; determining the entity relation contained in the text to be recognized according to the text vector and the convolution operation result obtained; and The first entity relationship recognition model is based on the training of trusted training sample set. This application is applicable to the identification of text entity relationship.

【技术实现步骤摘要】
实体关系识别方法及装置、存储介质、计算机设备
本申请涉及信息处理
,尤其是涉及到实体关系识别方法及装置、存储介质及计算机设备。
技术介绍
随着科学技术的发展,对于一些词语和词语之间的关系识别方法越来越多,所适用的场景也越来越广泛,例如一些地名之间的上下关系,国家机构之间的层级关系,物品种类的包含关系等,而这些需要利用大量的样本数据对神经网络进行训练,进而建立相应的识别模型以实现对文本中词语和词语之间的关系(即,实体关系)的抽取。现有技术存在的不足为,基于远程监督能够有效构建训练样本集以便实现对识别模型的训练,但训练样本集在构建的过程中还是容易混入错误的训练样本,对后期训练得到的识别模型的识别精度影响较大,从而导致训练后的识别模型对文本抽取实体关系的准确率较低,影响用户的使用体验。
技术实现思路
有鉴于此,本申请提供了实体关系识别方法及装置、存储介质、计算机设备,主要目的在于解决目前基于远程监督构建训练样本时容易混入错误的训练样本,从而导致训练后的识别模型对文本抽取实体关系的准确率较低的技术问题。根据本申请的一个方面,提供了一种实体关系识别方法,该方法包括:利用预设的第一实体关系识别模型,根据获取到的待识别文本得到待识别文本的文本向量;根据待识别文本的文本向量得到所述文本向量的卷积运算结果;根据所述文本向量和得到的卷积运算结果,确定待识别文本中包含的实体关系;其中,所述预设的第一实体关系识别模型是基于可信训练样本集训练得到的。根据本申请的另一方面,提供了一种实体关系识别装置,该装置包括:获取模块,用于利用预设的第一实体关系识别模型,根据获取到的待识别文本得到待识别文本的文本向量;卷积运算模块,用于根据待识别文本的文本向量得到所述文本向量的卷积运算结果;实体关系模块,用于根据所述文本向量和得到的卷积运算结果,确定待识别文本中包含的实体关系;其中,所述预设的第一实体关系识别模型是基于可信训练样本集训练得到的。依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述实体关系识别方法。依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实体关系识别方法。借由上述技术方案,本申请提供的实体关系识别方法及装置、存储介质、计算机设备,与目前基于远程监督构建的容易混入错误训练样本的训练样本集,进而训练得到的用于对文本抽取实体关系的准确率较低的识别模型相比,本申请利用预设的第一实体关系识别模型,根据获取到的待识别文本得到待识别文本的文本向量,根据待识别文本的文本向量得到所述文本向量的卷积运算结果,以及根据所述文本向量和得到的卷积运算结果,确定待识别文本中包含的实体关系,其中,预设的第一实体关系识别模型是基于可信训练样本集训练得到的,因此,基于高质量的可信训练样本集训练得到的预设的第一实体关系识别模型,能够有效提升对实体关系的识别准确度。上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1示出了本申请实施例提供的一种实体关系识别方法的流程示意图;图2示出了本申请实施例提供的另一种实体关系识别方法的流程示意图;图3示出了本申请实施例提供的一种实体关系识别装置的结构示意图。具体实施方式下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。针对目前于远程监督构建训练样本时容易混入错误的训练样本,从而导致训练后的识别模型对文本抽取实体关系的准确率较低的技术问题。本实施例提供了一种实体关系识别方法,能够通过构建对文本抽取实体关系准确度较高的实体关系识别模型,从而提高对文本中的实体关系的识别准确度,如图1所示,该方法包括:101、利用预设的第一实体关系识别模型,根据获取到的待识别文本得到待识别文本的文本向量。其中,所述预设的第一实体关系识别模型是基于可信训练样本集训练得到的,所述可信训练样本集是由带有实体关系标记的可信训练样本构建的。获取待识别文本,对获取到的待识别文本进行预处理,得到初始化的文本向量,并将初始化的文本向量输入预设的第一实体关系识别模型的嵌入层,生成用于表征待识别文本的文本向量。其中,预处理可以根据实际的应用场景进行具体设定,例如设定该预处理为分词处理,即以词语为单位对待识别文本进行分词标记;或者设定该预处理为词语筛选处理,即以词语为单位对待识别文本进行分词标记后,剔除不重要的词语,例如,“能够、应该”等助动词,以及“喔、啊”等感叹词等不重要的词语,以提升对待识别文本中的实体关系的识别效率,此处不对预处理进行具体限定。102、根据待识别文本的文本向量得到所述文本向量的卷积运算结果。待识别文本的文本向量经由卷积层、池化层和全连接层完成一系列的运算后,输出包含初始化文本向量中实体关系的多维特征向量,从而实现对待识别文本的文本向量中词语之间的关系信息的捕捉与提取。103、根据所述文本向量和得到的卷积运算结果,确定待识别文本中包含的实体关系。将卷积层得到的卷积运算结果,以及池化层得到的池化后的卷积运算结果输入预设的第一实体关系识别模型的全连接层,全连接层利用激活函数softmax对得到的每一项卷积核输出的卷积运算结果进行关联,得到关联后的卷积运算结果,并将得到的关联后的卷积运算结果与池化层输出的池化后的卷积运算结果相结合,输出待识别文本中的隐性特征,隐性特征用于表征待识别文本中词语之间的实体关系。对于本实施例可以按照上述方案,利用预设的第一实体关系识别模型,根据获取到的待识别文本得到待识别文本的文本向量,根据待识别文本的文本向量得到所述文本向量的卷积运算结果,以及根据所述文本向量和得到的卷积运算结果,确定待识别文本中包含的实体关系,其中,预设的第一实体关系识别模型是基于可信训练样本集训练得到的,与目前基于远程监督构建的容易混入错误训练样本的训练样本集,进而训练得到的用于对文本抽取实体关系的准确率较低的识别模型相比,本实施例能够基于高质量的可信训练样本集训练得到的预设的第一实体关系识别模型,能够有效提升对实体关系的识别准确度。进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种实体关系识别方法,如图2所示,该方法包括:201、对初始化的第二实体关系识别模型进行训练,得到预设的第二实体关系识别模型。预设的第二实体关系识别模型用本文档来自技高网...

【技术保护点】
1.一种实体关系识别方法,其特征在于,包括:/n利用预设的第一实体关系识别模型,根据获取到的待识别文本得到待识别文本的文本向量;/n根据待识别文本的文本向量得到所述文本向量的卷积运算结果;/n根据所述文本向量和得到的卷积运算结果,确定待识别文本中包含的实体关系;/n其中,所述预设的第一实体关系识别模型是基于可信训练样本集训练得到的,所述可信训练样本集是由带有实体关系标记的可信训练样本构建的。/n

【技术特征摘要】
1.一种实体关系识别方法,其特征在于,包括:
利用预设的第一实体关系识别模型,根据获取到的待识别文本得到待识别文本的文本向量;
根据待识别文本的文本向量得到所述文本向量的卷积运算结果;
根据所述文本向量和得到的卷积运算结果,确定待识别文本中包含的实体关系;
其中,所述预设的第一实体关系识别模型是基于可信训练样本集训练得到的,所述可信训练样本集是由带有实体关系标记的可信训练样本构建的。


2.根据权利要求1所述的方法,其特征在于,所述根据获取到的待识别文本得到待识别文本的文本向量,具体包括:
利用词向量词典获取待识别文本的字向量和词向量;
对得到的相邻多个字向量和词向量进行卷积运算,得到待识别文本的文本向量。


3.根据权利要求1所述的方法,其特征在于,所述可信训练样本集是由带有实体关系标记的可信训练样本构建的,具体包括:
利用预设的第二实体关系识别模型对远程监督训练样本进行实体关系预测;
根据实体关系预测结果和带有实体关系标记的标记训练样本,得到带有实体关系标记的可信训练样本。


4.根据权利要求3所述的方法,其特征在于,所述利用预设的第二实体关系识别模型对远程监督训练样本进行实体关系预测,具体包括:
利用预设的第二实体关系识别模型,对带有实体关系标记的标记训练样本进行卷积运算得到卷积运算结果;
根据所述卷积运算结果和所述标记训练样本中的实体关系标记,对初始化的高斯混合模型进行训练得到训练好的高斯混合模型;
利用训练好的高斯混合模型,对所述远程监督训练样本进行实体关系预测。


5.根据权利要求3或4所述的方法,其特征在于,所述根据实体关系预测结果和带有实体关系标记的标记训练样本,得到带有实体关系标记的可信训练样本,具体包括:
若预测得到的远程监督训练样本的实体关系与所述远程监督训练样本的初始实体关系标记一致,则将所述远程监督训练样本和所述标记训练样本作为带有实体关系标记的可信训练样本;...

【专利技术属性】
技术研发人员:肖京徐亮金戈
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1