一种基于对抗生成网络的告警数据生成方法技术

技术编号:34395451 阅读:32 留言:0更新日期:2022-08-03 21:28
本发明专利技术涉及网络告警领域,具体涉及一种基于对抗生成网络的告警数据生成方法。首先,预处理输入数据,包括去除无用信息、编码、填充等操作。然后用交叉熵损失函数预训练生成器及判别器。在对抗训练阶段,引入强化学习方法及结合Bandit算法的上限置信区间搜索算法,完成对离散数据训练过程的参数更新传递及不完整序列的模拟。在经过多轮训练过后,最终,使用训练完成的生成器生成一批告警数据。本发明专利技术针对判别器难以分辨不完整序列是否为真实数据的问题,引入结合Bandit算法的上限置信区间搜索算法,将不完整序列模拟为完整的告警数据,从而可以在生成器生成数据的任意时刻都可以通过判别器得到奖励值。判别器得到奖励值。判别器得到奖励值。

【技术实现步骤摘要】
一种基于对抗生成网络的告警数据生成方法


[0001]本专利技术涉及网络告警领域,具体涉及一种基于对抗生成网络的告警数据生成方法。

技术介绍

[0002]近年来,网络通信的发展越来越迅速,网络的结构也越来越复杂,但是网络故障的诊断和处理问题也越来越复杂。大多数故障诊断算法需要学习故障数据的特征来重构故障诊断模型,因此它们依赖于网络故障告警数据集来提供丰富的数据。
[0003]但真实网络环境中的告警数据具有采集困难,格式较为混乱等特点,采集足够告警数据作为故障诊断算法的学习依据成为了一件有挑战性的事。采用数据增强算法可以解决这一问题。
[0004]告警数据的生成可以看作是特殊情况下的文本生成,相较于传统的文本生成,告警数据生成具有格式要求更严格,内容范围更小等特点。传统的文本生成模型,如带有长短期记忆单元的循环神经网络,存在暴露偏差问题,可以通过使用生成对抗网络来避免这个问题,但传统的生成对抗网络模型在处理文本信息时存在着传递梯度更新困难、不完全序列难以区分等问题,较难适应告警数据生成的场景。
[0005]为了解现有技术的发展状况,对已有的专利和文献进行了检索、比较和分析,筛选出如下与本专利技术相关度比较高的技术信息:
[0006]专利方案1:CN110414604A感知对抗生成网络驱动的锂电池故障数据生成方法,涉及感知对抗生成网络驱动的锂电池故障数据生成方法,属于电池
在本方法中以外部电气参数表示的实测标注故障小样本数据为对象,考虑随机变量注入小样本故障数据的感知残差效应。以感知生成网络为对象,构建适应故障小样本数据分布的深度神经网络结构,及其感知损失函数设计策略。以对抗鉴别网络为对象,构建反映真实故障数据分布的网络结构,及其对抗损失函数构建范式,理解故障数据生成模型中真实分布与感知分布的误差传播关系及其可能的博弈模式,生成与真实故障锂电池分布接近的数据。该方法解决了目前有效可用的动力锂电池故障数据稀缺问题,提高了神经网络的训练效果,提高锂电池故障诊断模型的泛化能力弱与表达能力。缺陷:该方案旨在引入随机变量注入小样本故障数据的感知残差效应,以感知生成网络为对象,构建适应故障小样本数据分布的深度神经网络结构,从而生成与样本类似的故障数据。但在使用对抗生成网络生成故障数据过程中,未能考虑到故障数据离散性的特点并作针对性的处理,可能会导致学习不充分、生成数据效果不够好的问题。
[0007]专利方案2:CN112835709A基于生成对抗网络的云负载时序数据生成方法、系统及介质,公开了一种基于生成对抗网络的云负载时序数据生成方法、系统及介质,包括下述步骤:获取真实云环境下的负载时序数据;对获取的负载数据进行预处理;根据数据的复杂度,构建生成对抗网络,所述对抗生成网络包括生成器和判别器两部分,使用预处理后的负载时序数据,对构建的生成对抗网络进行训练,取生成对抗网络中的生成网络,从高斯分布
中随机采样作为输入,生成仿真数据,作为真实数据的替代或补充。通过本方法提出的生成对抗网络,可以稳定,高效地完成训练,拟合真实数据的分布。通过从拟合的近似分布中采样,可以生成用于替代或补充真实数据,用于实际算法研究的仿真数据,从而推动云计算中心能耗,调度,资源优化算法的发展。缺陷:该方案构建生成对抗网络并进行训练,取生成对抗网络中的生成网络,从高斯分布中随机采样作为输入,生成仿真数据。同样,该方案未能考虑到故障数据离散性的特点。可能会导致学习不充分、生成数据效果不够好的问题。
[0008]常见的研究是通过数据增强方法以真实数据作为训练集,生成更多的数据分布类似于真实数据的生成数据,并用于根源告警诊断算法模型的训练数据。由于告警数据生成与文本生成任务较为类似,一些常用于文本生成任务的模型可以被应用于告警数据生成,例如,使用长短期记忆(LSTM)单元的循环神经网络(RNN)。但这一模型存在暴露偏差问题,导致数据生成效果较差。使用对抗生成网络(GAN) 生成数据可以解决这一问题,但传统的GAN较难处理离散的文本数据。因此,本专利技术针对这些问题,引入了强化学习方法,解决了离散数据在对抗生成网络中难以训练的问题;并且,使用上限置信区间算法,使得对抗生成网络在训练过程中,判别器可以随时评估生成文本的质量。

技术实现思路

[0009]本专利技术针对真实网络环境中告警数据较为复杂且采集困难的问题,提出一种基于对抗生成网络的告警数据生成方法。
[0010]本专利技术采用的技术方案为:
[0011]一种基于对抗生成网络的告警数据生成方法,包括以下过程:
[0012]S1、对输入的告警数据进行独热编码,将一段时间内的告警数据合并为一条含多条告警信息的数据,并进行填充,形成多条等长的告警数据;
[0013]S2、利用步骤S1处理后的告警数据对生成式对抗网络中的生成器及判别器分别进行预训练;并使用强化学习方法中的策略梯度方法训练生成器,具体为:生成器在生成数据的过程中,对于每一步所生成的不完整数据序列以数学模拟的方法生成完整序列,并利用判别器计算对应的奖励值,根据奖励值训练生成器;
[0014]S3、使用训练完成的生成器生成告警数据,并根据步骤S1中独热编码得到的解码器,将数字编码格式的告警数据转换为自然语言形式的告警数据。
[0015]进一步的,步骤S1具体包括:
[0016]S11、对输入的告警数据进行独热编码,组成告警数据的所有告警信息内容对应独特的编码,并将文本信息转换为离散数字信息;
[0017]S12、根据告警数据中的时间信息,将设定时间段内的告警数据合并为一条含多条告警信息的数据,形成多条告警数据;
[0018]S13、将形成的多条告警数据进行填充处理,处理为等长的数据。
[0019]进一步的,步骤S2中训练生成器及判别器时,生成器以下式为目标函数进行预训练:
[0020][0021]其中,N为输入告警数据数量,y
ij
是标签,如果类别是j,则y
ij
=1,否则y
ij
=0, p
ij
为样本是j类的概率;预训练过程中以最小化目标函数为目标进行训练;
[0022]判别器以下式为目标函数进行预训练:
[0023][0024]其中,N为输入告警数据数量,y
ij
是标签,如果类别是j,则y
ij
=1,否则y
ij
=0, p
ij
为样本是j类的概率;预训练过程中以最小化目标函数为目标进行训练。
[0025]进一步的,步骤S2中采用强化学习中的策略梯度方法训练生成器时,生成器的目标函数为:
[0026][0027]其中,G
θ
为生成器,θ为GRU生成器的参数,D
φ
为判别器,φ为CNN判别器的参数,γ是一个告警内容的集合,每条告警数据都由γ中的元素所组成,S0为当前序列,G
θ
(y1|S0)则代表了生成器认为在S0状态下,下一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗生成网络的告警数据生成方法,其特征在于,包括以下过程:S1、对输入的告警数据进行独热编码,将一段时间内的告警数据合并为一条含多条告警信息的数据,并进行填充,形成多条等长的告警数据;S2、利用步骤S1处理后的告警数据对生成式对抗网络中的生成器及判别器分别进行预训练;并使用强化学习方法中的策略梯度方法训练生成器,具体为:生成器在生成数据的过程中,对于每一步所生成的不完整数据序列以数学模拟的方法生成完整序列,并利用判别器计算对应的奖励值,根据奖励值训练生成器;S3、使用训练完成的生成器生成告警数据,并根据步骤S1中独热编码得到的解码器,将数字编码格式的告警数据转换为自然语言形式的告警数据。2.根据权利要求1所述的基于对抗生成网络的告警数据生成方法,其特征在于,步骤S1具体包括:S11、对输入的告警数据进行独热编码,组成告警数据的所有告警信息内容对应独特的编码,并将文本信息转换为离散数字信息;S12、根据告警数据中的时间信息,将设定时间段内的告警数据合并为一条含多条告警信息的数据,形成多条告警数据;S13、将形成的多条告警数据进行填充处理,处理为等长的数据。3.根据权利要求1所述的基于对抗生成网络的告警数据生成方法,其特征在于,步骤S2中训练生成器及判别器时,生成器以下式为目标函数进行预训练:其中,N为输入告警数据数量,y
ij
是标签,如果类别是j,则y
ij
=1,否则y
ij
=0,p
ij
为样本是j类的概率;预训练过程中以最小化目标函数为目标进行训练;判别器以下式为目标函数进行预训练:其中,N为输入告警数据数量,y
ij
是标签,如果类别是j,则y
ij
=1...

【专利技术属性】
技术研发人员:霍永华宋春晓商英俊罗有平杨杨喻鹏李昱廷
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1