混沌工程试验场景下应急预案自动生成方法技术

技术编号:36959506 阅读:17 留言:0更新日期:2023-03-22 19:19
本发明专利技术公开了一种混沌工程试验场景下应急预案自动生成方法,包括如下步骤:步骤1:对故障语料库进行数据清洗与筛选等预处理任务;步骤2:利用经过步骤1预处理得到的结构化文本数据构建应急预警故障知识图谱;步骤3:使用基于深度学习的Seq2Seq

【技术实现步骤摘要】
混沌工程试验场景下应急预案自动生成方法


[0001]本专利技术属于应急预警
,更具体地说,涉及一种混沌工程试验场景下应急预案自动生成方法。

技术介绍

[0002]随着深度学习技术的演进,深度学习得到越来越广泛的关注和更多垂直行业的场景应用。语义分析模型以及文本生成模型则是基于深度学习技术,通过对语料数据集的训练实现应急预警方法的要求。混沌工程(Chaos Engineering)是通过主动向系统中引入软件或硬件的异常状态(扰动),制造故障场景并根据系统在各种压力下的行为表现确定优化策略的一种系统稳定性保障手段。
[0003]目前应急预警技术存在智能化水平不高,性能较低。

技术实现思路

[0004]本专利技术提出一种混沌工程试验场景下应急预案自动生成方法,可提高预警准确性,降低人力物力等成本。
[0005]为了解决上述技术问题至少之一,根据本专利技术的一方面,提供了一种混沌工程试验场景下应急预案自动生成方法,包括如下步骤:
[0006]步骤1:对故障语料库进行数据清洗与筛选等预处理任务;
[0007]步骤2:利用经过步骤1预处理得到的结构化文本数据构建应急预警故障知识图谱;
[0008]步骤3:使用基于深度学习的Seq2Seq

Att

Beam Search语义分析模型将自然语言转化为结构化条件数据;
[0009]步骤4:将步骤3生成的结构化条件数据与故障问题通过文本嵌入的方式输入到以CTG模型为主干的文本生成模型,用于模型训练;
[0010]步骤5:利用步骤4训练好的文本生成模型,输入故障问题,输出混沌工程场景应急预警方案。
[0011]为优化上述技术方案,采取的具体措施还包括:
[0012]进一步地,关于对故障语料库进行数据清洗与筛选等预处理任务:
[0013]对于原始故障语料库数据为带有图表,插图等的word格式文档,首先需要将文档里的文字内容和表格信息提取出来,进行格式转换为纯文本数据。待转换完毕,则需要对数据进行清洗与筛选从而转化为结构化数据。本专利技术采用正则表达式(Regular Expression,RE)筛选与命名体识别(Named Entity Recognition,NER)技术相结合的方式,将数据集中的故障名、故障启动条件以及故障处置要求等提取出来,并存储为结构化数据集。
[0014]进一步地,关于在数据预处理的基础上,利用得到的结构化文本数据构建应急预警故障知识图谱:
[0015]对于经过预处理后的结构化故障文本数据,本专利在此基础上构建应急预警故障
知识图谱。它可以更加直观的展示各故障链路之间的关系,链路之间的节点与属性等,待系统中出现某一故障问题时,方便查询故障在知识图谱中所关联的各个节点与链路关系。
[0016]进一步地,关于使用基于深度学习的Seq2Seq

Att

Beam Search语义分析模型将自然语言转化为结构化条件数据:
[0017]本专利采用的是基于深度学习的以编码器

解码器(Encoder

Decoder)为架构的序列到序列(Sequence

to

Sequence,Seq2Seq)模型,并结合了注意力机制与集束搜索解码机制。模型的基本原理是两个循环神经网络(Recurrent Neural Network,RNN),并且针对文本题目可能会出现长度过长的问题,本专利使用Chinese

XLNET预训练模型,使得模型可输入超过1000个字符。在Seq2seq模型中,通常要求输入端及输出端序列是等长的,但在实际的工作中,诸多应用场景的输入和输出序列长度并不等量齐观,比如语义分析的两端序列就是不同的,而Seq2seq模型解决了序列长度不相等问题。Seq2seq模型是一个端到端的有序模型,它的模型结构中包含了Encoder和Decoder及其作为连接彼此之间桥梁的中间语义向量c。对于本专利所需的语义解析任务,即给定输入文本序列X=[x1,x2,...,x
m
],生成一个被编码成结构化条件数据的序列Y=[y1,y2,...,y
n
]。基于Seq2Seq框架的语义分析模型的训练目标是在给定输入文本序列X的条件下,使得生成序列Y的概率最大,即p(y1,y2,...,y
n
|x1,x2,...,x
n
)最大。
[0018]首先,编码器使用一个RNN神经网络f
enc
(
·
)来编码输入文本序列X,将RNN神经网络在时刻m的隐藏层输出值h
m
作为输入序列的特征向量c,如下公式(1)和公式(2):
[0019][0020]c=h
m
ꢀꢀ
(2)
[0021]其中,f
enc
(
·
)是RNN神经网络,其参数为θ
enc
,为t时刻输入的词向量。
[0022]解码器使用另一个RNN神经网络f
dec
(
·
)、特征向量c和一个前馈神经网络g(
·
)来依次生成目标结构化条件数据序列Y。解码器首先用特征向量c来初始化神经网络f
dec
(
·
),然后使用t

1时刻的输出值y
t
‑1来生成t时刻的输出y
t
。令s
t
表示网络f
dec
(
·
)的隐藏层输出,o
t
∈(0,1)
|v|
为词汇表中所有词的后验概率,实现公式如下(3)(4)(5)(6):
[0023]s0=c
ꢀꢀ
(3)
[0024]s
t
=f
dec
(s
t
‑1,e
yt
‑1,θ
dec
)
ꢀꢀ
(4)
[0025]o
t
=g(s
t
,θ0)
ꢀꢀ
(5)
[0026]y
t
=argmax(o
t
)
ꢀꢀ
(6)
[0027]其中,f
dec
(
·
)是解码循环神经网络,g(
·
)是前馈神经网络,其激活函数为Softmax函数。θ
dec
和θ0分别为f
dec
(
·
)和g(
·
)中的参数,e
y
‑1为y
t
‑1的词向量。y0和y
n
一般是代表开始的特殊符号<sos本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混沌工程试验场景下应急预案自动生成方法,其特征在于,包括如下步骤:步骤1:对故障语料库进行数据清洗与筛选等预处理任务;步骤2:利用经过步骤1预处理得到的结构化文本数据构建应急预警故障知识图谱;步骤3:使用基于深度学习的Seq2Seq

Att

Beam Search语义分析模型将自然语言转化为结构化条件数据;步骤4:将步骤3生成的结构化条件数据与故障问题通过文本嵌入的方式输入到以CTG模型为主干的文本生成模型,用于模型训练;步骤5:利用步骤4训练好的文本生成模型,输入故障问题,输出混沌工程场景应急预警方案。2.根据权利要求1所述的方法,其特征在于,步骤1具体如下:将文档里的文字内容和表格信息提取出来,转换为纯文本数据;待转换完毕,则需要对数据进行清洗与筛选从而转化为结构化数据;采用正则表达式筛选与命名体识别技术相结合的方式,将数据集中的故障名、故障启动条件以及故障处置要求等提取出来,并存储为结构化数据集。3.根据权利要求1所述的方法,其特征在于,步骤3具体如下:给定输入文本序列X=[x1,x2,...,x
m
],生成一个被编码成结构化条件数据的序列Y=[y1,y2,...,y
n
];基于Seq2Seq框架的语义分析模型的训练目标是在给定输入文本序列X的条件下,使得生成序列Y的概率最大,即p(y1,y2,...,y
n
|x1,x2,...,x
n
)最大;首先,编码器使用一个RNN神经网络f
enc
(

)来编码输入文本序列X,将RNN神经网络在时刻m的隐藏层输出值h
m
作为输入序列的特征向量c,如下公式(1)和公式(2):c=h
m
ꢀꢀ
(2)其中,f
enc
(
·
)是RNN神经网络,其参数为θ
enc
,为t时刻输入的词向量;解码器使用另一个RNN神经网络f
dec
(
·
)、特征向量c和一个前馈神经网络g(
·
)来依次生成目标结构化条件数据序列Y;解码器首先用特征向量c来初始化神经网络f
dec
(
·
),然后使用t

1时刻的输出值y
t
‑1来生成t时刻的输出y
t
;令s
t
表示网络f
dec
(
·
)的隐藏层输出,o
t
∈(0,1)
|v|
为词汇表中所有词的后验概率,实现公式如下(3)(4)(5)(6):s0=c
ꢀꢀ
(3)o
t
=g(s
t
,θ0)
ꢀꢀ
(5)y
t
=argmax(o
t
)
ꢀꢀ
(6)其中,f
dec

【专利技术属性】
技术研发人员:阮峰张文鹏耿宜龙
申请(专利权)人:南京争锋信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1