System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于级联抽取和图对比模型的混沌工程摘要生成方法技术_技高网

一种基于级联抽取和图对比模型的混沌工程摘要生成方法技术

技术编号:40603549 阅读:4 留言:0更新日期:2024-03-12 22:08
本发明专利技术公开了一种基于级联抽取和图对比模型的混沌工程摘要生成方法。首先,采用抽取式摘要生成技术,标注混沌工程演练报告中的重要部分,抽取出关键信息作为黄金摘要;然后,使用基于黄金摘要和全局文档上下文语义信息的图对比主题模型(GCTM),捕捉更好的全局语义信息,通过建立文本的图模型,将混沌工程演练报告中的词与词之间的关系表示为边,进而提取出主题信息;此外,该模型还能够利用全局文档上下文信息来进一步提高对主题的识别能力,生成更加准确的混沌工程演练报告摘要;最后,融入多任务学习机制,对生成摘要中的句子进行计算打分,共享参数并进行融合,以保留关键信息和全局语义信息的同时,又能生成自然流畅的混沌工程演练报告摘要。

【技术实现步骤摘要】

本专利技术涉及摘要生成,特别涉及一种基于级联抽取和图对比模型的混沌工程摘要生成方法


技术介绍

1、随着互联网的发展,人们可以轻松地获取大量的文本信息,但是这些信息往往是冗长而复杂的,需要耗费大量时间和精力才能够理解。在许多领域,尤其是在混沌工程演练报告的处理中,这种情况尤为突出。混沌工程演练报告是对复杂系统(如航空、金融、能源等)进行的全面评估和测试的重要文档,其中包含了大量的技术细节、实验数据和分析结果。

2、然而,由于混沌工程演练报告的长篇幅和复杂性,人们在理解和利用这些报告时往往面临困难。手动撰写摘要需要耗费大量的时间和人力资源,而且结果可能存在主观性和不一致性。因此,自动摘要生成技术在混沌工程演练报告处理中具有重要意义。

3、自动文本摘要技术可以自动地从大量的文本中提取出关键信息,生成简洁准确的摘要。然而,目前的摘要生成方法,特别是在处理长文本时,存在一些问题,包括语言逻辑不通、信息缺失以及无法准确捕捉混沌工程演练报告的关键内容。


技术实现思路

1、本专利技术所要解决的问题是:提供一种基于级联抽取和图对比模型的混沌工程摘要生成方法,提高摘要生成的流畅性和文本适用性,更好地满足混沌工程演练报告摘要生成的需求。

2、本专利技术采用以下技术方案:一种基于级联抽取和图对比模型的混沌工程摘要生成方法,包括以下三个步骤:

3、步骤1、采用抽取式摘要生成方法,标注混沌工程演练报告中的重要部分,抽取出混沌工程演练报告中所有重要的句子,将其组合起来作为后续步骤中的黄金摘要;

4、步骤2、使用结合黄金摘要和全局文档上下文语义信息的图对比主题模型,捕捉全局语义信息,建立文本的图模型,将混沌工程演练报告中词与词之间的关系表示为边,提取出主题信息;利用图模型与来自黄金摘要的监督信息进行对比学习,生成混沌工程演练报告主题分布;使用概率解码器生成观察到的单词,预测每个混沌工程演练报告中句子的标签,推送与黄金摘要具有高度语义相似性的文档和句子的紧密主题表示,得到的句子成为新的摘要;

5、步骤3、融入多任务学习机制,对步骤1和步骤2生成摘要中的句子进行打分计算,共享参数并进行融合,保留关键信息和全局语义信息的同时,生成混沌工程演练报告摘要。

6、进一步地,步骤1中,针对初始混沌工程演练报告过长的问题,使用基于深度学习rnn(循环神经网络)的抽取式摘要生成方法,挖掘混沌工程演练报告长文本中重要的段落或句子,生成黄金摘要:

7、首先,将提取的摘要作为序列分类问题处理,以原始文档顺序访问每个句子,并且考虑先前做出的判定,就其是否应当被包括在摘要中来做出二元判定。

8、gru-rnn(基于gru的循环神经网络)是具有两个门的递归网络, u为更新门, r为重置门,rnn第一层在单词级运行,并基于当前单词嵌入和先前的隐藏状态顺序地计算每个单词位置处的隐藏状态表示;第二层在句子级运行,并接受双向单词级rnn的平均池化、级联隐藏状态作为输入,第二层rnn的隐藏状态对混沌工程演练报告中句子的表示进行编码。

9、然后,整个混沌工程演练报告的表示被建模为双向句子级rnn的级联隐藏状态的平均池化的非线性变换,进行二元决策:每个句子在第二次遍历中逐个被重新审查,通过一个逻辑层对该句子进行二元决策,判断该句子是否属于摘要。

10、进一步地,在生成混沌工程演练报告的黄金摘要的基础上,使用基于黄金摘要和全局文档上下文语义信息的gctm (图对比主题模型),使用transformer进行编码,通过学习黄金摘要中的信息,生成更加准确的摘要内容。

11、引入gctm模型的概念,在嵌入层采用hte (hierarchical transformer encoder)方法,完全嵌入长文档的全局上下文,以通知文档和句子的主题表示,在hte中捕获bow特性中缺失的全局上下文信息,使模型能够学习更具辨别性的文档和句子主题表示以及连贯的主题。

12、首先,将混沌工程演练报告 d拆分成 m个固定长度的块,每个块具有 n个令牌;每个令牌由向量 e l,p表示,向量 e l是令牌嵌入、块嵌入和位置嵌入的总和。

13、以 e l作为输入嵌入,基于预训练语言模型bert的transformer编码器hl=bert( e l),学习每个块中令牌的上下文表示;在块中的每个句子的开头和结尾插入[cls]和[sep]标记,把[cls]标记的表示看作对应的句子的上下文表示 h s,用于捕获每个块中的局部上下文语义;

14、为了进一步建模块内之间的相关性,将文档转换器编码器堆叠在 h s上,以产生混沌工程演练报告上下文感知语句表示;

15、最后,使用池化层生成基于的混沌工程演练报告表示 h d。

16、对于混沌工程演练报告主题分布,求出多项式分布变量的均值和协方差,利用softmax激活函数将其转化为logistic正态分布变量。

17、基于hte(hierarchical token embedding)和bow(bag of words)特性的上下文隐藏表示:hte和bow是上下文隐藏表示中的两个特性,the用于表示文本的向量化方法,可以捕获单词和句子之间的语义关系;bow用于表示文本的向量化方法,将文本视为单词的无序集合,忽略了单词之间的顺序和语法结构。

18、从hte中只抽取混沌工程演练报告上下文感知的句子隐藏表示,对句子主题分布进行采样,对于每个文档,首先,构建图g={v,e},其中节点v作为文档及其所有句子,边e由邻接矩阵 a表示,图g是一个二分图,只有文档和句子之间的连接;

19、然后,引入图对比表示学习:基于嵌入监督信息的二部图,为图的对比表示学习设计损失公式,显式地推送关闭图中有连接的节点的主题分布,引导模型学习与黄金摘要语义相关的更有鉴别性的混沌工程演练报告和句子分布。

20、基于样本句子和混沌工程演练报告表示,使用概率译码器生成观察到的单词,并预测每个混沌工程演练报告中句子的标签。

21、对于每个混沌工程演练报告 i第 本文档来自技高网...

【技术保护点】

1.一种基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,在步骤1中,使用基于深度学习循环神经网络的抽取式摘要生成方法,挖掘混沌工程演练报告长文本中重要的段落或句子,生成黄金摘要,包括如下子步骤:

3.根据权利要求2所述的基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,在步骤1.3中,所述深度的学习循环神经网络,包括两层,

4.根据权利要求2所述的基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,在步骤2中,结合步骤1抽取出的黄金摘要和全局文档上下文语义信息,构建图对比主题模型,表示为GCTM,方法如下:

5.根据权利要求4所述的基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,在步骤2中,生成混沌工程演练报告主题分布,求出多项式分布变量的均值和协方差,然后利用Softmax激活函数将其转化为Logistic正态分布变量,具体方法如下:

6.根据权利要求5所述的基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,在步骤2中,基于样本句子和混沌工程演练报告表示,使用概率解码器生成观察到的单词,并预测每个混沌工程演练报告中句子的标签:

7.根据权利要求6所述的基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,在步骤2中,从图对比主题建模和抽取摘要两个方面对损失函数进行优化,最终损失是ELBO证据下限和图对比损失的总和,公式如下:

8.根据权利要求1所述的基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,在步骤3中,融入多任务学习机制,生成混沌工程演练报告摘要,方法如下:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时,实现权利要求1至8中任一项所述的基于级联抽取和图对比模型的混沌工程摘要生成方法中的步骤。

...

【技术特征摘要】

1.一种基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,在步骤1中,使用基于深度学习循环神经网络的抽取式摘要生成方法,挖掘混沌工程演练报告长文本中重要的段落或句子,生成黄金摘要,包括如下子步骤:

3.根据权利要求2所述的基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,在步骤1.3中,所述深度的学习循环神经网络,包括两层,

4.根据权利要求2所述的基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,在步骤2中,结合步骤1抽取出的黄金摘要和全局文档上下文语义信息,构建图对比主题模型,表示为gctm,方法如下:

5.根据权利要求4所述的基于级联抽取和图对比模型的混沌工程摘要生成方法,其特征在于,在步骤2中,生成混沌工程演练报告主题分布,求出多项式分布变量的均值和协方差,然后利用softmax激活函数将其转化...

【专利技术属性】
技术研发人员:阮峰耿宜龙张文鹏许小龙
申请(专利权)人:南京争锋信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1