基于故障因果图谱的航空故障文本摘要生成方法及其装置制造方法及图纸

技术编号:32773563 阅读:11 留言:0更新日期:2022-03-23 19:29
本发明专利技术公开了一种基于故障因果图谱的航空故障文本摘要生成方法与装置,其包括以下步骤:步骤一:通过原始故障因果图谱生成目录图谱;步骤二:获取目标文本样本的特征向量;步骤三:使用故障因果图谱模型生成文本候选摘要;步骤四:对文本生成模型进行解码;步骤五:生成航空故障文本摘要。本方法首先对预先已完成构建的故障因果图谱通过凝聚层次聚类方法从而获取得到目录图谱,进而通过故障因果图谱分别在编码和解码阶段引入预先获取得到的结构化特征,最终生成所需的航空故障文本摘要。本发明专利技术利用文档篇章结构进行信息抽取,应用故障因果图谱进行故障逻辑定位,解决了现有生成式摘要模型无法满足篇章目录结构约束的问题。要模型无法满足篇章目录结构约束的问题。要模型无法满足篇章目录结构约束的问题。

【技术实现步骤摘要】
基于故障因果图谱的航空故障文本摘要生成方法及其装置


[0001]本申请涉及计算机
,尤其涉及一种基于故障因果图谱的航空故障文本摘要生成方法及其装置。

技术介绍

[0002]文本摘要模型能够将较长的文本段落转化为精简的摘要文本,并尽可能保留原文中的全部信息。生成式摘要通常是利用了大规模语料预训练的生成式语言模型,输入一段文本作为开头可以通过自回归的机制续写文本,在摘要数据上微调后输入原文作为开头,模型会生成针对这篇原文的摘要。而这种生成式摘要模型仅仅满足了语法的通顺,但是应用在航空故障领域文本中会出现生成内容篇章结构不合理的情形,例如,在叙事过程中将航空故障的根本原因和次要原因、故障发生过程的不同类型的事件次序颠倒,会出现逻辑混乱等问题。
[0003]本专利技术针对航空故障文本描述中事件具有显著因果关系的篇章结构的特点,设计了基于故障因果图谱的目录图谱生成方法,以及一种基于图神经网络的编码器以及一种故障因果图谱解码器用于融合包含该目录图谱的结构化特征。与已公开的有关篇章结构或故障因果图谱专利对比而言,本申请利用文档篇章结构进行信息抽取,应用故障因果图谱进行故障逻辑定位,综合以上两点应用于文本生成的方法具备独创性。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供了一种基于故障因果图谱的航空故障文本摘要生成方法和装置。该方法首先基于预先已完成构建的故障因果图谱,通过凝聚层次聚类方法获取目录图谱,进而以故障因果图谱为输入,通过图神经网络分别在编码和解码阶段引入预先获取得到的结构化特征,包括故障因果图谱以及目录图谱,从而生成航空故障文本摘要。
[0005]为实现上述目的,本专利技术所采用的解决方案为提供一种基于故障因果图谱的航空故障文本摘要生成方法,其具体步骤包括:
[0006]一种基于故障因果图谱的航空故障文本摘要生成方法,其特征在于,其具体步骤包括:
[0007]步骤一:通过原始故障因果图谱生成目录图谱;
[0008]将故障因果图谱输入基于凝聚层次聚类方法的目录图谱生成器,获取添加目录图谱的故障因果图谱;将故障因果图谱里的每个事件节点作为一个簇,使用欧几里得距离来衡量两个簇的相似度,具体表达式如下所示:
[0009][0010]式中:e1表示第一个事件;e2表示第二个事件;Distance(e1,e2)表示第一个事件与
第二个事件的相似度;表示事件e1和事件e
i
在相似度矩阵上的值;表示事件e2和事件e
i
在相似度矩阵上的值;i∈(1,n),n表示事件总数;
[0011]合并距离最小的两个簇,然后重新计算相似度,重复以上步骤一,直到相似度的精度达到要求为止;针对每个簇和簇中的事件节点的距离,按照距离大小进行排序,最小的节点距离就是所述簇的中心事件节点;
[0012]步骤二:获取目标文本样本的特征向量;
[0013]将航空领域内的目标文本样本输入基于深度文本特征提取器的文本编码器,获取对目标文本序列的向量化表示,所述文本特征提取模型使用基于预训练语言模型BERT的编码层,获取目标文本样本的特征向量;
[0014][0015]式中:C表示目标文本样本特征向量;x1,x2分别表示文本的第1个特征和第2个特征;j∈(1,S),S表示文本的特征长度;表示编码器;
[0016]步骤三:生成文本候选摘要;
[0017]获取步骤二计算得到的目标文本样本以及故障因果图谱的向量化表示输入基于故障因果图谱的解码器中,通过自回归的方式生成文本候选摘要;故障因果图谱解码公式如下:
[0018]Z
score
=s(MultiNet(I,Θ),Z)
[0019]式中:Z
score
是选择的子图的向量化表示;其中I是目标第二种文本序列的向量化表示,Θ表示网络的参数,MultiNet表示故障因果图谱解码器,Z是图谱的向量化表示,s表示子图选择函数,Z
score
是选择的子图的向量化表示;
[0020]步骤四:文本生成模型的解码;
[0021]获取步骤三得到的文本候选摘要,将其中的知识子图中的事件短语融入文本生成模型的解码过程,自解码过程的表达式如下所示:
[0022][0023]式中:t表示时间;y
t+1
表示t+1时刻的文本输出;y
t
表示t时刻的文本输出;I是目标第二种文本序列的向量化表示;表示知识图谱抽取函数,使用多层感知机计算(y
t
,Z
score
)之间的得分,0表示不需要融合知识图谱,1表示需要融合知识图谱;表示输出函数,如果无需融合知识图谱,使用全连接层直接映射y
t
到输出,如果需要融合知识图谱,使用另一个多层感知机映射(y
t
,Z
score
)到输出;
[0024]步骤五:生成航空故障文本摘要;
[0025]获取步骤四解码后输出的文本,生成所需的航空故障文本摘要。
[0026]可优选的是,所述步骤一中所述的相似度的精度达到要求,具体比较方法如下式所示;
[0027]Distance(e1,e2)≤ρ
[0028]式中:ρ表示相似度的精度。
[0029]可优选的是,所述步骤二中航空领域文本序列对应的向量化表示前,需要基于凝聚层次聚类的方法生成目录图谱,需经过深度文本特征提取器模型提取文本特征。
[0030]可优选的是,所述步骤三中的自回归的方式,是以递归的方式,已知故障因果图谱
解码公式情况下,给定已生成文本对应输出词表的赋值来预测概率最高的下一个字。
[0031]可优选的是,所述步骤四中的输入文本得到摘要生成结果之前,需要使用故障因果图谱对包括故障因果图谱、目录图谱在内的结构化特征融合。
[0032]在本专利技术的第二方面中,提供一种基于故障因果图谱的航空故障文本摘要生成装置,其包括以下内容:
[0033]第一获取单元,用于生成目录图谱的原始故障因果图谱;
[0034]第一输入单元,用于将故障因果图谱输入基于凝聚层次聚类方法的目录图谱生成器;
[0035]第二获取单元,用于获取添加了目录图谱的故障因果图谱,以及航空领域内的目标文本样本;
[0036]第二输入单元,用于将航空领域内的目标文本样本输入基于深度文本特征提取器的文本编码器;
[0037]第三获取单元,用于获取故障因果图谱及目录图谱的向量化表示与结构化特征;
[0038]第三输入单元,将目标文本的故障因果图谱及目录图谱的结构化特征输入基于故障因果图谱的解码器中,生成候选摘要;
[0039]第四获取单元,用于获取文本候选摘要;
[0040]第四输入单元,将文本候选摘要中的知识子图中的事件短语融入文本生成模型的解码过程,进行解码;
[0041]第五获取单元,用于获取解码器模型生成的摘要文本。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于故障因果图谱的航空故障文本摘要生成方法,其特征在于,其具体步骤包括:步骤一:通过原始故障因果图谱生成目录图谱;将故障因果图谱输入基于凝聚层次聚类方法的目录图谱生成器,获取添加目录图谱的故障因果图谱;将故障因果图谱里的每个事件节点作为一个簇,使用欧几里得距离来衡量两个簇的相似度,具体表达式如下所示:式中:e1表示第一个事件;e2表示第二个事件;Distance(e1,e2)表示第一个事件与第二个事件的相似度;表示事件e1和事件e
i
在相似度矩阵上的值;表示事件e2和事件e
i
在相似度矩阵上的值;i∈(1,n),n表示事件总数;合并距离最小的两个簇,然后重新计算相似度,重复以上步骤一,直到相似度的精度达到要求为止;针对每个簇和簇中的事件节点的距离,按照距离大小进行排序,最小的节点距离就是所述簇的中心事件节点;步骤二:获取目标文本样本的特征向量;将航空领域内的目标文本样本输入基于深度文本特征提取器的文本编码器,获取对目标文本序列的向量化表示,所述文本特征提取模型使用基于预训练语言模型BERT的编码层,获取目标文本样本的特征向量;式中:C表示目标文本样本特征向量;x1,x2分别表示文本的第1个特征和第2个特征;j∈(1,S),S表示文本的特征长度;表示编码器;步骤三:生成文本候选摘要;获取步骤二计算得到的目标文本样本以及故障因果图谱的向量化表示输入基于故障因果图谱的解码器中,通过自回归的方式生成文本候选摘要;故障因果图谱解码公式如下:Z
score
=s(MultiNet(I,Θ),Z)式中:Z
score
是选择的子图的向量化表示;其中I是目标第二种文本序列的向量化表示,Θ表示网络的参数,MultiNet表示故障因果图谱解码器,Z是图谱的向量化表示,s表示子图选择函数,Z
score
是选择的子图的向量化表示;步骤四:文本生成模型的解码;获取步骤三得到的文本候选摘要,将其中的知识子图中的事件短语融入文本生成模型的解码过程,自解码过程的表达式如下所示:式中:t表示时间;y
t+1
表示t+1时刻的文本输出;y
t
表示t时刻的文本输出;I是目标第二种文本序列的向量化表示;表示知识图谱抽取函数,使用多层感知机计算(y
t
,Z
score
)之间的得分,0表示不需要融合知识图谱,1表示需要融合知识图谱;表示输出函数,如果无需融合知识图谱,使用全连接层...

【专利技术属性】
技术研发人员:高龙董洪飞高魁陶剑武铎
申请(专利权)人:中国航空综合技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1