一种关系三元组的抽取方法和装置制造方法及图纸

技术编号:38708694 阅读:11 留言:0更新日期:2023-09-08 14:49
本发明专利技术公开了一种关系三元组的抽取方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括:采用训练文本对基于双向抽取和知识引导注意力机制的关系三元组抽取模型进行有监督训练,以更新模型参数,从而得到训练好的关系三元组抽取模型;采用所述训练好的关系三元组抽取模型抽取出目标文本中的各个关系三元组。该实施方式能够解决抽取结果不够准确的技术问题。准确的技术问题。准确的技术问题。

【技术实现步骤摘要】
一种关系三元组的抽取方法和装置


[0001]本专利技术涉及人工智能
,尤其涉及一种关系三元组的抽取方法和装置。

技术介绍

[0002]当前,关系三元组抽取技术很多,主要分为以下两种:
[0003]1)将关系三元组抽取转化成序列标注任务,对文本句子中每个词进行标注,然后分类,这种方法可以从句子中抽取出关系三元组。但由于一个词只对应一个标签,若一个词参与多个关系三元组的组成,这种抽取方法不能将所有关系三元组抽取出来。
[0004]2)将预定义的语义关系看作函数,将头实体映射到尾实体,从而抽取出关系三元组。此方法是将抽取出的头实体依据关系直接去找对应的尾实体,若两个实体的语义关系相差较大,头实体很难找到对应的尾实体。并且利用头实体去找特定关系下对应的尾实体,这是一种单向模型,只能学习到头实体到尾实体的单向依赖,可能会造成预测结果的不准确,此种方法没有考虑到抽取的方向性约束。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种关系三元组的抽取方法和装置,以解决抽取结果不够准确的技术问题。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种关系三元组的抽取方法,包括:
[0007]采用训练文本对基于双向抽取和知识引导注意力机制的关系三元组抽取模型进行有监督训练,以更新模型参数,从而得到训练好的关系三元组抽取模型;
[0008]采用所述训练好的关系三元组抽取模型抽取出目标文本中的各个关系三元组。
[0009]可选地,所述关系三元组抽取模型包括依次串联的文本编码器和双向关系三元组抽取模型,所述双向关系三元组抽取模型包括关系知识表示模型、并联的正向关系三元组抽取模型和反向关系三元组抽取模型;其中,所述文本编码器用于对所述训练文本进行编码,所述关系知识表示模型用于对所述训练文本对应的关系三元组进行知识表示,所述正向关系三元组抽取模型用于抽取正向关系三元组,所述反向关系三元组抽取模型用于抽取反向关系三元组。
[0010]可选地,采用训练文本对基于双向抽取和知识引导注意力机制的关系三元组抽取模型进行有监督训练,以更新模型参数,从而得到训练好的关系三元组抽取模型,包括:
[0011]将训练文本输入到文本编码器,从而输出所述训练文本的编码向量;
[0012]将各个训练文本对应的关系三元组输入到关系知识表示模型,从而输出各个关系三元组的知识表示;
[0013]将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到正向关系三元组抽取模型中,从而抽取出正向关系三元组;同时,将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到反向关系三元组抽取模型中,从而抽取出反向关系三元
组;
[0014]对所述正向关系三元组和所述反向关系三元组取交集,得到所述训练文本对应的预测关系三元组,同时以所述训练文本对应的训练关系三元组为目标,进行有监督训练,以更新模型参数,从而得到训练好的关系三元组抽取模型。
[0015]可选地,所述正向关系三元组抽取模型包括正向头实体识别模型、正向注意力机制模型、正向融合模型和正向尾实体识别模型;
[0016]将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到正向关系三元组抽取模型中,从而抽取出正向关系三元组,包括:
[0017]将所述训练文本的编码向量输入到正向头实体识别模型,从而输出正向头实体;
[0018]将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到正向注意力机制模型,从而输出正向关系语义表示;
[0019]将所述正向头实体、所述编码向量和所述正向语义表示输入到正向融合模型,从而融合得到正向融合向量;
[0020]将所述正向融合向量输入正向尾实体识别模型,以抽取出正向尾实体,从而抽取出正向关系三元组。
[0021]可选地,所述反向关系三元组抽取模型包括反向尾实体识别模型、反向注意力机制模型、反向融合模型和反向头实体识别模型;
[0022]将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到反向关系三元组抽取模型中,从而抽取出反向关系三元组,包括:
[0023]将所述训练文本的编码向量输入到反向头实体识别模型,从而输出反向头实体;
[0024]将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到反向注意力机制模型,从而输出反向关系语义表示;
[0025]将所述反向头实体、所述编码向量和所述反向语义表示输入到反向融合模型,从而融合得到反向融合向量;
[0026]将所述反向融合向量输入反向尾实体识别模型,以抽取出反向尾实体,从而抽取出反向关系三元组。
[0027]可选地,所述文本编码器为预训练语言模型,所述正向头实体识别模型、所述正向融合模型、所述正向尾实体识别模型、所述反向头实体识别模型、所述反向融合模型、所述反向尾实体识别模型均为全连接神经网络,所述正向注意力机制模型和所述反向注意力机制模型均为注意力机制网络。
[0028]可选地,所述关系知识表示模型用于根据各个训练文本对应的关系三元组构建知识图谱,采用知识嵌入算法对所述知识图谱进行学习,从而得到各个关系三元组的知识表示。
[0029]另外,根据本专利技术实施例的另一个方面,提供了一种关系三元组的抽取装置,包括:
[0030]训练模块,用于采用训练文本对基于双向抽取和知识引导注意力机制的关系三元组抽取模型进行有监督训练,以更新模型参数,从而得到训练好的关系三元组抽取模型;
[0031]抽取模块,用于采用所述训练好的关系三元组抽取模型抽取出目标文本中的各个关系三元组。
[0032]可选地,所述关系三元组抽取模型包括依次串联的文本编码器和双向关系三元组抽取模型,所述双向关系三元组抽取模型包括关系知识表示模型、并联的正向关系三元组抽取模型和反向关系三元组抽取模型;其中,所述文本编码器用于对所述训练文本进行编码,所述关系知识表示模型用于对所述训练文本对应的关系三元组进行知识表示,所述正向关系三元组抽取模型用于抽取正向关系三元组,所述反向关系三元组抽取模型用于抽取反向关系三元组。
[0033]可选地,所述训练模块还用于:
[0034]将训练文本输入到文本编码器,从而输出所述训练文本的编码向量;
[0035]将各个训练文本对应的关系三元组输入到关系知识表示模型,从而输出各个关系三元组的知识表示;
[0036]将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到正向关系三元组抽取模型中,从而抽取出正向关系三元组;同时,将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到反向关系三元组抽取模型中,从而抽取出反向关系三元组;
[0037]对所述正向关系三元组和所述反向关系三元组取交集,得到所述训练文本对应的预测关系三元组,同时以所述训练文本对应的训练关系三元组为目标,进行有监督训练,以更新模型参数,从而得到训练好的关系三元组抽取模型。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关系三元组的抽取方法,其特征在于,包括:采用训练文本对基于双向抽取和知识引导注意力机制的关系三元组抽取模型进行有监督训练,以更新模型参数,从而得到训练好的关系三元组抽取模型;采用所述训练好的关系三元组抽取模型抽取出目标文本中的各个关系三元组。2.根据权利要求1所述的方法,其特征在于,所述关系三元组抽取模型包括依次串联的文本编码器和双向关系三元组抽取模型,所述双向关系三元组抽取模型包括关系知识表示模型、并联的正向关系三元组抽取模型和反向关系三元组抽取模型;其中,所述文本编码器用于对所述训练文本进行编码,所述关系知识表示模型用于对所述训练文本对应的关系三元组进行知识表示,所述正向关系三元组抽取模型用于抽取正向关系三元组,所述反向关系三元组抽取模型用于抽取反向关系三元组。3.根据权利要求2所述的方法,其特征在于,采用训练文本对基于双向抽取和知识引导注意力机制的关系三元组抽取模型进行有监督训练,以更新模型参数,从而得到训练好的关系三元组抽取模型,包括:将训练文本输入到文本编码器,从而输出所述训练文本的编码向量;将各个训练文本对应的关系三元组输入到关系知识表示模型,从而输出各个关系三元组的知识表示;将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到正向关系三元组抽取模型中,从而抽取出正向关系三元组;同时,将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到反向关系三元组抽取模型中,从而抽取出反向关系三元组;对所述正向关系三元组和所述反向关系三元组取交集,得到所述训练文本对应的预测关系三元组,同时以所述训练文本对应的训练关系三元组为目标,进行有监督训练,以更新模型参数,从而得到训练好的关系三元组抽取模型。4.根据权利要求3所述的方法,其特征在于,所述正向关系三元组抽取模型包括正向头实体识别模型、正向注意力机制模型、正向融合模型和正向尾实体识别模型;将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到正向关系三元组抽取模型中,从而抽取出正向关系三元组,包括:将所述训练文本的编码向量输入到正向头实体识别模型,从而输出正向头实体;将所述训练文本的编码向量和所述各个关系三元组的知识表示输入到正向注意力机制模型,从而输出正向关系语义表示;将所述正向头实体、所述编码向量和所述正向语义表示输入到正向融合模型,从而融合得到正向融合向量;将所述正向融合向量输...

【专利技术属性】
技术研发人员:杨毅康志恒李宗尚
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1