实体和关系的联合抽取方法、模型、电子设备及存储介质技术

技术编号:23149941 阅读:17 留言:0更新日期:2020-01-18 13:48
本申请提供一种实体和关系的联合抽取方法、模型、电子设备及存储介质,通过对待抽取语料的特征提取等操作,将待抽取语料向量化,并基于特征向量得到待抽取语料中各基本元素的标签概率向量,进而输出基本元素的实体关系标签。这就得到了语料中各基本元素的实体关系标签,实现了对语料中实体和关系的联合抽取。此外,本申请实施例中会采用多头注意力机制将第一特征向量映射到多个语义空间,进而再进行各语义空间的映射结果与该第一特征向量的拼接,这就使得得到第二特征向量对于所对应的基本元素的语义表达更为完善,从而确定出的标签概率向量的准确性也较高,进而所确定出的基本元素的实体关系标签的准确性也较高。

Joint extraction methods, models, electronic devices and storage media of entities and relationships

【技术实现步骤摘要】
实体和关系的联合抽取方法、模型、电子设备及存储介质
本申请涉及数据处理
,具体而言,涉及一种实体和关系的联合抽取方法、模型、电子设备及存储介质。
技术介绍
在当今大数据时代,每天都会产生大量的数据,但数据种类繁多,良莠不齐,因此如何从大量数据中抽取有用的信息就成了人工智能领域重要的研究问题。通过信息抽取得到的数据则可以帮助企业构建行业知识图谱、辅助领导层决策、跟踪事件发展状况以及风险评估等,具有重要的研究意义和实际应用价值,其中实体和关系的抽取就是其中的核心任务之一。
技术实现思路
本申请实施例的目的在于提供一种实体和关系的联合抽取方法、模型、电子设备及存储介质,用以实现语料信息中的实体和关系的抽取。本申请实施例提供了一种实体和关系的联合抽取方法,包括:对待抽取语料进行特征提取,得到所述待抽取语料中各基本元素的第一特征向量;对所述各基本元素的第一特征向量均执行以下操作:采用多头注意力机制将所述第一特征向量映射到多个语义空间;将所述第一特征向量在各所述语义空间的映射结果与该第一特征向量进行拼接,得到第二特征向量;基于所述第二特征向量,确定出所述第二特征向量对应的基本元素的标签概率向量;将所述标签概率向量中,数值大于预设阈值的向量数值所对应的实体关系标签,作为所述标签概率向量对应的基本元素的实体关系标签;所述实体关系标签包括实体类型和关系类型。在上述实现过程中,通过对待抽取语料的特征提取等操作,将待抽取语料向量化,并基于特征向量得到待抽取语料中各基本元素的标签概率向量,进而输出基本元素的实体关系标签。这就得到了语料中各基本元素的实体关系标签。而实体关系标签包括实体类型和关系类型,因此输出各基本元素的实体关系标签后,即实现了对语料实体和关系的确认,实现了对语料中实体和关系的联合抽取。此外,本申请实施例中会采用多头注意力机制将第一特征向量映射到多个语义空间,进而再进行各语义空间的映射结果与该第一特征向量的拼接,这就使得得到第二特征向量对于所对应的基本元素的语义表达更为完善,从而确定出的标签概率向量的准确性也较高,进而所确定出的基本元素的实体关系标签的准确性也较高。进一步的,所述对待抽取语料进行特征提取,得到所述待抽取语料中各基本元素的第一特征向量包括:对所述待抽取语料进行词嵌入,得到所述待抽取语料中各基本元素的词向量;使用卷积神经网络对所述各基本元素的词向量进行特征提取,得到所述各基本元素的第一特征向量。在上述实现过程中,通过对待抽取语料进行词嵌入,使得待抽取语料中的各基本元素向量化,从而使得待抽取语料可被计算机识别处理。进而再通过卷积神经网络来实现对词向量特征提取,从而实现对待抽取语料的特征提取。进一步的,在所述待抽取语料为字母类语料时,所述基本元素为构成所述待抽取语料的单词;所述对所述待抽取语料进行词嵌入,得到所述待抽取语料中各基本元素的词向量包括:对所述待抽取语料中的每一个单词使用词嵌入,得到各所述单词的第一词嵌入向量;对各所述单词中的每一个字母进行词嵌入,得到各所述字母的第二词嵌入向量;使用卷积神经网络对各所述字母的第二词嵌入向量进行特征提取,得到各所述字母的第三词嵌入向量;将属于同一单词的各所述字母的第三词嵌入向量与所属单词的第一词嵌入向量进行拼接,得到各所述单词的词向量。在上述实现过程中,在待抽取语料为字母类语料时,对待抽取语料中的每一个单词使用词嵌入,得到各单词的第一词嵌入向量;对各单词中的每一个字母进行词嵌入,得到各字母的第二词嵌入向量。再对第二词嵌入向量进行特征提取,得到各字母的第三词嵌入向量,并将同一单词的各所述字母的第三词嵌入向量与所属单词的第一词嵌入向量进行拼接,得到各单词的词向量。这样得到的词向量结合了单词本身进行词嵌入处理后得到的第一词嵌入向量,以及单词中各字母进行词嵌入处理以及特征提取处理后的字母特征,使得得到的词向量对于单词的表征更为准确,从而提升了本申请方案的可靠性。进一步的,在所述采用多头注意力机制将所述第一特征向量映射到多个语义空间之前,还包括:对所述第一特征向量进行线性变换;所述采用多头注意力机制将所述第一特征向量映射到多个语义空间包括:采用多头注意力机制将进行线性变换后的第一特征向量映射到多个语义空间。在上述实现过程中,先对第一特征向量进行线性变换,使得第一特征向量映射到所需的空间中,从而提升了特征向量的表达效果,提升了本申请方案的可靠性。进一步的,所述基于所述第二特征向量,确定出所述第二特征向量对应的基本元素的标签概率向量包括:采用双向长短期记忆网络对所述第二特征向量进行编码,得到第三特征向量;采用单向长短期记忆网络对第三特征向量进行解码,得到所述第二特征向量对应的基本元素的标签概率向量。在上述实现过程中,采用双向长短期记忆网络进行编码,而采用对应的单向长短期记忆网络进行相应的解码,实现简单,且长短期记忆网络是在语料处理中较为成熟的神经网络,对于语料的处理比较可靠,这就使得本申请的方案具有较高的实际应用价值。进一步的,所述采用双向长短期记忆网络对所述第二特征向量进行编码,得到第三特征向量包括:将所述第二特征向量输入所述双向长短期记忆网络中;将所述双向长短期记忆网络输出的两个结果进行拼接,得到所述第三特征向量。在实际应用中,双向长短期记忆网络会输出两个不同处理方向的结果。在上述实现过程中,将这两个结果进行拼接作为第三特征向量,从而丰富了第三特征向量的特征表达,使得其能更准确的表征出对应的基础元素在语料中的类别,提升了本申请方案的可靠性。进一步的,所述实体关系标签为元素类型标识、关系类型和元素角色标示三元组。在上述实现过程中,通过元素类型标识、关系类型和元素角色标示三元组,即可明确出一个基础元素在语料中的角色类型以及其对应的关系是什么。此外本申请实施例中,由于标签中含有元素类型标识、关系类型和元素角色标示,因此可以同时识别出语料中的实体和对应关系,不会产生冗余信息,也没有误差的传递和累积,具有长期使用仍旧可靠的特性。本申请实施例还提供了一种实体和关系的联合抽取模型,包括:特征提取层,用于对待抽取语料进行特征提取,得到所述待抽取语料中各基本元素的第一特征向量;映射层,用于采用多头注意力机制将所述第一特征向量映射到多个语义空间;将所述第一特征向量在各所述语义空间的映射结果与该第一特征向量进行拼接,得到第二特征向量;编码层,对所述第二特征向量进行编码,得到第三特征向量;解码层,对所述第三特征向量进行解码,得到标签概率向量;分类层,将所述标签概率向量中,数值大于预设阈值的向量数值所对应的实体关系标签,作为所述标签概率向量对应的基本元素的实体关系标签。在上述联合抽取模型中,通过对待抽取语料的特征提取等操作,将待抽取语料向量化,并基于特征向量得到待抽取语料中各基本元素的标签概率向量,进而输出基本元素的实体关系标签。这就得到了语料中各基本元素的实体关系标签。而实体关系标签包括实体类型和关系类型,因此输出各基本元素的实体关系标签后,即实现了对语料实体和关系的确认,实现了对语料中实体本文档来自技高网...

【技术保护点】
1.一种实体和关系的联合抽取方法,其特征在于,包括:/n对待抽取语料进行特征提取,得到所述待抽取语料中各基本元素的第一特征向量;/n对所述各基本元素的第一特征向量均执行以下操作:/n采用多头注意力机制将所述第一特征向量映射到多个语义空间;/n将所述第一特征向量在各所述语义空间的映射结果与该第一特征向量进行拼接,得到第二特征向量;/n基于所述第二特征向量,确定出所述第二特征向量对应的基本元素的标签概率向量;/n将所述标签概率向量中,数值大于预设阈值的向量数值所对应的实体关系标签,作为所述标签概率向量对应的基本元素的实体关系标签;所述实体关系标签包括实体类型和关系类型。/n

【技术特征摘要】
1.一种实体和关系的联合抽取方法,其特征在于,包括:
对待抽取语料进行特征提取,得到所述待抽取语料中各基本元素的第一特征向量;
对所述各基本元素的第一特征向量均执行以下操作:
采用多头注意力机制将所述第一特征向量映射到多个语义空间;
将所述第一特征向量在各所述语义空间的映射结果与该第一特征向量进行拼接,得到第二特征向量;
基于所述第二特征向量,确定出所述第二特征向量对应的基本元素的标签概率向量;
将所述标签概率向量中,数值大于预设阈值的向量数值所对应的实体关系标签,作为所述标签概率向量对应的基本元素的实体关系标签;所述实体关系标签包括实体类型和关系类型。


2.如权利要求1所述的实体和关系的联合抽取方法,其特征在于,所述对待抽取语料进行特征提取,得到所述待抽取语料中各基本元素的第一特征向量包括:
对所述待抽取语料进行词嵌入,得到所述待抽取语料中各基本元素的词向量;
使用卷积神经网络对所述各基本元素的词向量进行特征提取,得到所述各基本元素的第一特征向量。


3.如权利要求2所述的实体和关系的联合抽取方法,其特征在于,在所述待抽取语料为字母类语料时,所述基本元素为构成所述待抽取语料的单词;
所述对所述待抽取语料进行词嵌入,得到所述待抽取语料中各基本元素的词向量包括:
对所述待抽取语料中的每一个单词使用词嵌入,得到各所述单词的第一词嵌入向量;
对各所述单词中的每一个字母进行词嵌入,得到各所述字母的第二词嵌入向量;
使用卷积神经网络对各所述字母的第二词嵌入向量进行特征提取,得到各所述字母的第三词嵌入向量;
将属于同一单词的各所述字母的第三词嵌入向量与所属单词的第一词嵌入向量进行拼接,得到各所述单词的词向量。


4.如权利要求1所述的实体和关系的联合抽取方法,其特征在于,在所述采用多头注意力机制将所述第一特征向量映射到多个语义空间之前,还包括:对所述第一特征向量进行线性变换;
所述采用多头注意力机制将所述第一特征向量映射到多个语义空间包括:采用多头注意力机制将进行线性变换后的第一特征向量映射到多个语义空间。


5.如权利要求1所述的实体和关系的联合抽取方法,其特征在于,所述基于所述第二特征向量,确定出所述第二特征向量对应的基本元素的标签概率向量包括:
采用双向长短期记忆网络对所述第二特征向量进行编码,得到第三特征向量;
采用单向长短期记忆网络对第三特征向量进行解码,得到所述第二特征向量对应的基本元素的标签概率向量。


6.如权利...

【专利技术属性】
技术研发人员:徐猛付骁弈
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1