一种基于事件因果推断的实体关系的联合抽取方法技术

技术编号:37701688 阅读:10 留言:0更新日期:2023-06-01 23:47
本发明专利技术提供了一种基于事件因果推断的实体关系的联合抽取方法,通过获取至少一条事件调查报告,抽取事件调查报告中的关键文本数据;其中,关键文本数据至少包括实体数据及关系数据;实体数据包括事件原因和事件结果;构建目标联合抽取模型;其中,联合抽取模型包含目标编码子模型和目标解码子模型;利用目标联合抽取模型识别关键文本数据中的目标三元组;其中,目标三元组包括目标事件原因、目标关系和目标事件结果;目标关系包括直接关系和间接关系。由此,抽取准确的目标三元组来构建事件因果推断知识图谱,实现发现高数据量下出现某种事故结果可能存在的直接或者间接原因,并构建检索和问答系统,协助专业人士来对可能的原因做出分析和推断。因做出分析和推断。因做出分析和推断。

【技术实现步骤摘要】
一种基于事件因果推断的实体关系的联合抽取方法


[0001]本专利技术涉及知识图谱
,具体涉及一种基于事件因果推断的实体关系的联合抽取方法。

技术介绍

[0002]由于化工事故原因呈现多元性和复杂化,化工事故因果推断分析作为预防和避免危化品事故的有效手段,面临着新的难题。
[0003]化工事故的原因调查是因果推断任务的重要表现之一,化工事故的事件调查报告中会有对事故直接原因和间接原因的分析,提取事件调查报告中的三元组,即头尾实体(事件原因和事件结果)以及两者之间的关系,是化工事故的实践因果推断的重要步骤。但在事件调查报告中往往存在大量长文本的情况,且一条事件调查报告中往往会包含多个事件结果,以及各个事件结果的各个直接和间接原因,容易出现实体关系稀疏以及实体复杂重叠的提取影响因素。其中,实体关系稀疏会造成实体关系提取不准确。实体重叠情况包括:某一三元组中的头实体也是另一三元组中的尾实体;某一三元组中的头实体也是另一三元组中的头实体;某一三元组中的头实体尾实体同时包含多种关系等。因此,难以完成针对化工事故调查报告中三元组的准确抽取。

技术实现思路

[0004]为此,本专利技术提供一种基于事件因果推断的实体关系的联合抽取方法,旨在利用事件调查报告中对事件因果进行准确的分析推断,并以此来构建事件因果推断知识图谱,以协助发现高数据量下出现某种事件结果可能存在的直接或者间接原因。
[0005]为实现以上目的,本专利技术采用如下技术方案:
[0006]依据本专利技术第一方面,本专利技术提供一种基于事件因果推断的实体关系联合抽取方法,所述方法包括:
[0007]获取至少一条事件调查报告,抽取所述事件调查报告中的关键文本数据;其中,所述关键文本数据至少包括实体数据及关系数据;所述实体数据包括事件原因和事件结果;
[0008]构建目标联合抽取模型;其中,所述联合抽取模型包含目标编码子模型和目标解码子模型;
[0009]利用所述目标联合抽取模型识别所述关键文本数据中的目标三元组;其中,所述目标三元组包括目标事件原因、目标关系和目标事件结果;所述目标关系包括直接关系和间接关系。
[0010]可选地,所述构建目标联合抽取模型包括:
[0011]构建基于预训练Bert模型的包含Bert

base

chinese构架的目标编码子模型;
[0012]在所述目标解码模型的序列编码层上叠加统一的目标解码子模型,得到联合抽取模型;
[0013]利用预设样本对所述联合抽取模型进行训练,得到训练完成的目标联合抽取模
型。
[0014]可选地,所述目标解码子模型为基于指针网络的span方法的解码框架模型;
[0015]所述目标解码子模型包括低级主体标记解码器和高级客体关系标记解码器。
[0016]可选地,所述利用所述目标联合抽取模型识别关键文本数据中的目标三元组,包括:
[0017]将所述关键文本数据输入所述联合抽取模型;
[0018]利用所述目标编码子模型将所述关键文本数据转换为用于表征语义特征的特征向量;
[0019]利用所述低级主体标记解码器基于所述特征向量识别用于表征目标事件原因的头实体;
[0020]利用所述高级客体关系标记解码器识别所述头实体所在特定关系上对应的尾实体;其中,所述特定关系为直接关系或间接关系,所述尾实体用于表征目标事件结果。
[0021]可选地,所述利用预设样本对所述联合抽取模型进行训练,得到训练完成的目标联合抽取模型,包括:
[0022]利用预设训练样本输入所述目标编码子模型,得到共享参数;
[0023]利用共享参数中的头实体样本和尾实体样本训练所述低级主体标记解码器;
[0024]利用在特定关系下的头实体样本的位置信息训练所述高级客体关系标记解码器;
[0025]利用训练得到的头实体位置信息和尾实体信息对所述联合抽取模型进行模型损失优化,得到参数优化后的目标联合抽取模型。
[0026]可选地,所述利用训练得到的头实体位置信息和尾实体信息对所述联合抽取模型进行模型损失优化,包括:
[0027]对原有损失参数补充基于二分类的交叉熵损失函数,得到平衡交叉熵损失函数,所述平衡交叉熵损失函数用公式表示为:
[0028][0029]其中,y
i
为目标值,p
i
是模型训练的输出值;
[0030]或,
[0031]在模型随输入梯度无贡献值达到预设阈值时,利用基于稀疏场景下的平衡交叉熵损失函数对所述联合抽取模型进行模型损失优化;
[0032]所述基于稀疏场景下的平衡交叉熵损失函数用公式表示为:
[0033][0034]其中,p
w
为样本权重控制参数,y
i
为目标值,p
i
是模型训练的输出值。
[0035]可选地,所述利用训练得到的头实体位置信息和尾实体信息对所述联合抽取模型进行模型损失优化,还包括:
[0036]基于FGM方法对所述联合抽取模型进行对抗训练,所述FGM方法计算公式表示为:
[0037]R
adv
=∈(‖g‖)2[0038][0039]其中,R
adv
为扰动项,x为原样本,g为grad梯度,θ与y为模型参数。
[0040]可选地,所述利用所述目标编码子模型将所述关键文本数据转换为用于表征语义特征的特征向量,包括:
[0041]对所述关键文本数据进行预处理,所述预处理包括字符标注处理和语句标注处理;
[0042]利用文本输入词嵌入层对预处理后的关键文本数据进行向量映射,得到所述关键文本数据对应的词嵌入向量;
[0043]利用特征提取层对所述词嵌入向量进行语义抽取处理,得到包含所述关键文本数据对应的语义特征的特征向量。
[0044]可选地,所述抽取所述事件调查报告中的关键文本数据,包括:
[0045]对所述事件调查报告进行因果关系对抽取,得到至少一对事件原因和所述事件原因对应的事件结果。
[0046]可选地,所述方法还包括:
[0047]基于所述目标三元组构建事件因果知识图谱,对所述事件因果知识图谱进行页面显示;和/或,
[0048]基于所述事件因果知识图谱构建用户交互界面;其中,所述包括事件因果检索功能和事件因果问答功能中至少之一。
[0049]本专利技术采用以上技术方案,至少具备以下有益效果:
[0050]通过本专利技术方案,获取至少一条事件调查报告,抽取所述事件调查报告中的关键文本数据;构建目标联合抽取模型;利用所述目标联合抽取模型识别所述关键文本数据中包括目标事件原因、目标关系和目标事件结果的目标三元组。由此,抽取准确的目标三元组来构建事件因果推断知识图谱,实现发现高数据量下出现某种事故结果可能存在的直接或者间接原因,并构建检索和问答系统,协助专业人士来对可能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于事件因果推断的实体关系联合抽取方法,其特征在于,所述方法包括:获取至少一条事件调查报告,抽取所述事件调查报告中的关键文本数据;其中,所述关键文本数据至少包括实体数据及关系数据;所述实体数据包括事件原因和事件结果;构建目标联合抽取模型;其中,所述联合抽取模型包含目标编码子模型和目标解码子模型;利用所述目标联合抽取模型识别所述关键文本数据中的目标三元组;其中,所述目标三元组包括目标事件原因、目标关系和目标事件结果;所述目标关系包括直接关系和间接关系。2.根据权利要求1所述的方法,其特征在于,所述构建目标联合抽取模型包括:构建基于预训练Bert模型的包含Bert

base

chinese构架的目标编码子模型;在所述目标解码模型的序列编码层上叠加统一的目标解码子模型,得到联合抽取模型;利用预设样本对所述联合抽取模型进行训练,得到训练完成的目标联合抽取模型。3.根据权利要求1所述的方法,其特征在于,所述目标解码子模型为基于指针网络的span方法的解码框架模型;所述目标解码子模型包括低级主体标记解码器和高级客体关系标记解码器。4.根据权利要求3所述的方法,其特征在于,所述利用所述目标联合抽取模型识别关键文本数据中的目标三元组,包括:将所述关键文本数据输入所述联合抽取模型;利用所述目标编码子模型将所述关键文本数据转换为用于表征语义特征的特征向量;利用所述低级主体标记解码器基于所述特征向量识别用于表征目标事件原因的头实体;利用所述高级客体关系标记解码器识别所述头实体所在特定关系上对应的尾实体;其中,所述特定关系为直接关系或间接关系,所述尾实体用于表征目标事件结果。5.根据权利要求3所述的方法,其特征在于,所述利用预设样本对所述联合抽取模型进行训练,得到训练完成的目标联合抽取模型,包括:利用预设训练样本输入所述目标编码子模型,得到共享参数;利用共享参数中的头实体样本和尾实体样本训练所述低级主体标记解码器;利用在特定关系下的头实体样本的位置信息训练所述高级客体关系标记解码器;利用训练得到的头实体位置信息和尾实体信息对所述联合抽取模型进行模型损失优化,得到参数优化后的目标联合抽取模型。6...

【专利技术属性】
技术研发人员:栾婷婷邓明月张丽佳张雪李红儒常建超李晓云王凯
申请(专利权)人:北京石油化工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1