基于轻量级自注意力机制的实体关系联合抽取方法及装置制造方法及图纸

技术编号:34524410 阅读:13 留言:0更新日期:2022-08-13 21:14
本发明专利技术公开了基于轻量级自注意力机制的实体关系联合抽取方法及装置,方法包括获取目标句子数据,并将所述目标句子数据输入实体分类模型;通过所述实体分类模型对所述目标句子数据的所有子序列进行分类,得到实体序列和无实体序列;获取所述实体序列中的任意对实体对,并将所述实体对以及所述实体对之间的各个词组合后输入关系分类模型中;通过实体关系联合抽取模型生成实体关系联合的分类结果;其中,所述实体关系联合抽取模型包括Bert编码器、实体分类模型和关系分类模型。本发明专利技术复杂度低,能够提升实体关系模型的性能,可广泛应用于人工智能技术领域。用于人工智能技术领域。用于人工智能技术领域。

【技术实现步骤摘要】
基于轻量级自注意力机制的实体关系联合抽取方法及装置


[0001]本专利技术涉及人工智能
,尤其是基于轻量级自注意力机制的实体关系联合抽取方法及装置。

技术介绍

[0002]命名实体识别:Named Entity Recognition,简称NER。又称作专名识别、命名实体,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。指的是可以用专有名词(名称)标识的事物,一个命名实体一般代表唯一一个具体事物个体,包括人名、地名等。NER属于从非结构化文本中分类和定位命名实体感情的子任务,其过程是从是非结构化文本表达式中产生专有名词标注信息的命名实体表达式。
[0003]关系抽取:关系抽取就是从一段文本中抽取出(主体,关系,客体)这样的三元组,用英文表示就是(subject,relation,object)这样的三元组。所以关系抽取,有时也叫作三元组抽取。从关系抽取的定义也可以看出,关系抽取主要做两件事:识别文本中的subject和object(实体识别任务)和判断这两个实体属于哪种关系(关系分类)。
[0004]自注意力机制:一种机器学习技术,自注意力可以自然地认知属性,同时也称为内部注意力,是一种将单个序列的不同位置关联起来的注意力机制,以便计算同一序列的表示。它已被证明在机器阅读、抽象摘要或图像描述生成中非常有用。
[0005]实体识别和关系提取是从自然语言文本作为数据源构建知识图谱的关键技术。随着社交网络的发展,自然语言文本数据量和生产速度与日俱增,新知识也在不断产生。同时,知识图谱的更新也需要新知识的补充。对于应用于假新闻检测的知识图谱,知识的更新速度尤为重要。然而,为了提高从快速增长的自然语言文本数据中获取知识的速度,需要一种能够从存在于不同网络平台上的自然语言文本数据中快速识别实体和关系的方法。这样有助于提高知识图谱的更新速度。当前的实体和关系提取任务通常使用多头自注意力模型。然而,经典的多头自注意力模型包括三个变换矩阵,参数量很大,导致复杂度高,训练效率低,需要大量的训练数据集。尤其是基于预训练模型的自然语言处理模型,在实体和关系抽取任务中取得了很好的效果。但由于预训练模型的训练成本高,模型复杂,难以在边缘设备上部署和应用,无法适应使用网络自然语言文本快速更新知识图谱的任务数据。

技术实现思路

[0006]有鉴于此,本专利技术实施例提供一种复杂度低的,基于轻量级自注意力机制的实体关系联合抽取方法及装置,并提升实体关系模型的性能。
[0007]本专利技术的第一方面提供了基于轻量级自注意力机制的实体关系联合抽取方法,包括:
[0008]获取目标句子数据,并将所述目标句子数据输入实体分类模型;
[0009]通过所述实体分类模型对所述目标句子数据的所有子序列进行分类,得到实体序
列和无实体序列;
[0010]获取所述实体序列中的任意对实体对,并将所述实体对以及所述实体对之间的各个词组合后输入关系分类模型中;
[0011]通过实体关系联合抽取模型生成实体关系联合的分类结果;
[0012]其中,所述实体关系联合抽取模型包括Bert编码器、实体分类模型和关系分类模型。
[0013]可选地,所述获取目标句子数据,并将所述目标句子数据输入实体分类模型,包括:
[0014]将目标句子输入到所述Bert编码器机型编码,得到编码结果;
[0015]将所述编码结果拆分成多个子序列,构建所述目标句子数据;
[0016]将所述目标句子数据输入实体分类模型。
[0017]可选地,所述实体分类模型和所述关系分类模型通过单层感知机实现。
[0018]可选地,所述Bert编码器为轻注意编码器,所述轻注意编码器包括多个编码器块和一个由全连接的网络层组成的文本编码器模块;
[0019]当所述轻注意编码器的输入为文本向量时,同步获取文本向量的一维位置编码信息后,进行句子编码;
[0020]在句子编码后,添加一个额外的一维向量作为全局信息,补充句子的整体信息;
[0021]将句子编码后的向量序列输入跨度分类器进行实体检测,将所有检测到的子序列划分为实体类型和非实体类型;
[0022]将实体对和它们之间的跨度组合成一个长向量;
[0023]将所述长向量输入到关系分类器,提取长向量中的关系。
[0024]可选地,所述跨度分类器包括一个全连接的映射层;所述关系分类器包括一个全连接映射层;
[0025]所述轻注意编码器中的编码器块包括两个子模块,其中一个子模块采用轻自注意力机制,该子模块进行残余连接后进行输出,并将输出标准化;另一个子模块是投影层模块,该投影层模块包括一个三层的全连接层,其中第一层全连接层的维度与输入维度保持一致,第二层全连接层的维度是输入维度的四倍,第三层全连接层的维度与输入维度保持一致。
[0026]可选地,所述轻注意编码器中编码器块的数量根据内存大小动态更新。
[0027]可选地,所述轻注意编码器的处理过程包括:
[0028]将输入的特征矩阵跟两个变换矩阵进行点乘,得到Query和Key,同时将所述输入的特征矩阵本身当作Value;
[0029]然后将Query的值和Key的值进行余弦相似度计算,获得相似度分数;
[0030]将相似度分数进行点乘变为矩阵,然后再通过一个sotfmax归一将得到的对角矩阵转为无规则矩阵,从而作用到Value的值上;
[0031]最后输出的Value的值为自注意力层的输出,将输出做一个残差链接并且做层标准化处理。
[0032]本专利技术实施例的另一方面还提供了一种基于轻量级自注意力机制的实体关系联合抽取装置,包括:
[0033]第一模块,用于获取目标句子数据,并将所述目标句子数据输入实体分类模型;
[0034]第二模块,用于通过所述实体分类模型对所述目标句子数据的所有子序列进行分类,得到实体序列和无实体序列;
[0035]第三模块,用于获取所述实体序列中的任意对实体对,并将所述实体对以及所述实体对之间的各个词组合后输入关系分类模型中;
[0036]第四模块,用于通过实体关系联合抽取模型生成实体关系联合的分类结果;
[0037]其中,所述实体关系联合抽取模型包括Bert编码器、实体分类模型和关系分类模型。
[0038]本专利技术实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
[0039]所述存储器用于存储程序;
[0040]所述处理器执行所述程序实现如前面所述的方法。
[0041]本专利技术实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0042]本专利技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于轻量级自注意力机制的实体关系联合抽取方法,其特征在于,包括:获取目标句子数据,并将所述目标句子数据输入实体分类模型;通过所述实体分类模型对所述目标句子数据的所有子序列进行分类,得到实体序列和无实体序列;获取所述实体序列中的任意对实体对,并将所述实体对以及所述实体对之间的各个词组合后输入关系分类模型中;通过实体关系联合抽取模型生成实体关系联合的分类结果;其中,所述实体关系联合抽取模型包括Bert编码器、实体分类模型和关系分类模型。2.根据权利要求1所述的基于轻量级自注意力机制的实体关系联合抽取方法,其特征在于,所述获取目标句子数据,并将所述目标句子数据输入实体分类模型,包括:将目标句子输入到所述Bert编码器机型编码,得到编码结果;将所述编码结果拆分成多个子序列,构建所述目标句子数据;将所述目标句子数据输入实体分类模型。3.根据权利要求1所述的基于轻量级自注意力机制的实体关系联合抽取方法,其特征在于,所述实体分类模型和所述关系分类模型通过单层感知机实现。4.根据权利要求1所述的基于轻量级自注意力机制的实体关系联合抽取方法,其特征在于,所述Bert编码器为轻注意编码器,所述轻注意编码器包括多个编码器块和一个由全连接的网络层组成的文本编码器模块;当所述轻注意编码器的输入为文本向量时,同步获取文本向量的一维位置编码信息后,进行句子编码;在句子编码后,添加一个额外的一维向量作为全局信息,补充句子的整体信息;将句子编码后的向量序列输入跨度分类器进行实体检测,将所有检测到的子序列划分为实体类型和非实体类型;将实体对和它们之间的跨度组合成一个长向量;将所述长向量输入到关系分类器,提取长向量中的关系。5.根据权利要求4所述的基于轻量级自注意力机制的实体关系联合抽取方法,其特征在于,所述跨度分类器包括一个全连接的映射层;所述关系分类器包括一个全连接映射层;所述轻注意编码器中的编码器块包括两个子模块,其中一个子模块采用轻自注意力机制,该...

【专利技术属性】
技术研发人员:王艺轩吴正洋汤庸
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1