System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于GAN的测试数据自动生成方法技术_技高网

一种基于GAN的测试数据自动生成方法技术

技术编号:40968479 阅读:2 留言:0更新日期:2024-04-18 20:49
本发明专利技术公开了一种基于GAN的测试数据自动生成方法,包括以下步骤:步骤1、针对所需的测试任务,获取符合实际测试的训练数据;步骤2、训练数据预处理,为了使GAN在训练过程中学习的更均衡更全面,采用三元组划分对训练数据进行预处理;步骤3、设计并搭建GAN模型,生成对抗网络包含一个生成网络和判别网络,生成网络用于捕捉并学习训练数据的分布,判别网络用于判断样本数据的真实程度,即判断样本数据来自于真实训练数据的概率。本发明专利技术通过编解码器的形式构建生成网络,再通过处理二分类任务的形式构成判别网络,二者则共同组成了生成对抗网络的整体架构。

【技术实现步骤摘要】

本专利技术涉及的,尤其涉及一种基于gan的测试数据自动生成方法。


技术介绍

1、在过去的数年中,云计算作为一种新的计算范式不断蓬勃发展,掀起了分布式计算社区新一轮的it技术变革;如今,云现象俨然已经成为互联网计算中的一项重要服务。随着云平台的不断壮大发展,一系列适应于云平台的各项功能模块与软件也应运而出。应用于云平台的各种软件在上线之前都需要经过各项测试以验证软件功能的正确性、全面性、连贯性和可判定性。优秀的测试数据用例则更是保证测试完整性的重中之重。而自动生成测试数据用例,则可以显著提高测试工作的效率,减轻测试人员的负担。

2、专利cn114676042a提出了一种将改进遗传算法与强化学习结合的电力物联网测试数据生成算法,通过对历史电力数据编码初始化种群染色体,通过每一步迭代适应度最大的染色体的编码参数,迭代出用于训练的测试数据,再通过杰卡德距离驱动强化学习得到最终的测试路径集合。

3、该技术方案存在的问题有:

4、(1)初始信息条件采用编码分类的初始化方式,这与实际场景存在偏差,多步程更新遗传种群迭代缓慢,增加了算法执行的时间成本。

5、(2)通过染色体适应度和杰卡德距离确定的最优测试路径集合只是实际场景测试路径集合的一个子集,无法保证测试流程的全面性。

6、为此,我们提出一种基于gan的测试数据自动生成方法来解决上述提出的问题。


技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。

2、鉴于上述现有基于gan的测试数据自动生成方法存在的问题,提出了本专利技术。

3、因此,本专利技术目的是提供一种基于gan的测试数据自动生成方法,其通过编解码器的形式构建生成网络,再通过处理二分类任务的形式构成判别网络,二者则共同组成了生成对抗网络的整体架构。本专利技术还构建了以最小二乘算法为底的生成对抗损失值、分布距离损失值和分布交并比损失值,三者共同约束并驱动gan模型学习出真实测试场景中的数据分布,并能通过输入高斯分布的噪声自动生成符合真实数据分布的测试数据。该专利技术可以最大限度的提高测试工作效率和减轻测人人员负担,可以有效地提升云平台中测试任务的自动化能力。

4、为解决上述技术问题,本专利技术提供如下技术方案:一种基于gan的测试数据自动生成方法,包括以下步骤:

5、步骤1、针对所需的测试任务,获取符合实际测试的训练数据;

6、步骤2、训练数据预处理,为了使gan在训练过程中学习的更均衡更全面,采用三元组划分对训练数据进行预处理;

7、步骤3、设计并搭建gan模型,生成对抗网络包含一个生成网络和判别网络,生成网络用于捕捉并学习训练数据的分布,判别网络用于判断样本数据的真实程度,即判断样本数据来自于真实训练数据的概率;

8、步骤4、计算对抗损失值,假设真实样本的数据分布为pdata,初始化服从高斯分布pz(z)的随机噪声为z,生成网络通过映射g(z;θg)将输入的随机噪声z变换到生成数据分布pg,判别器d(x;θd)通过交叉熵损失函数输出一个[0,1]的标量表示输入样本来自于真实数据的概率;

9、步骤5、计算分布距离损失值,步骤4中提出的对抗损失使得生成网络能够生成出符合真实测试场景数据分布的测试数据,但其可能会生成数据出现模式崩塌的状况,即生成数据较为单一,仅局限于真实分布的某个小区间内;针对该情况提出一种分布距离损失值,通过减小分布距离损失,驱使生成数据分布不断趋近于真实数据分布,使得生成数据更加全面连贯,保证生成数据可以满足真实测试任务需求;

10、步骤6、计算分布交并比损失值,步骤4和步骤5所设计的损失值,使得生成数据分布具有良好的真实数据分布;但在训练过程中减小步骤5中得分布距离损失值时,可能会出现只减小(μt-μg)2或者只减小(σt-σg)2,为了约束生成数据的全面性和可用性,提出了分布交并比损失值;

11、步骤7、根据步骤4、5、6所设计的损失函数计算出模型的总损失值,通过梯度下降减小损失,不断更新模型各项参数,直到模型收敛稳定;

12、步骤8、将符合高斯分布的噪声数据输入到已完成训练的生成网络中,由生成网络自动生成丰富的测试数据,并将其用于真实测试任务中进行测试。

13、作为本专利技术所述基于gan的测试数据自动生成方法的一种优选方案,其中:所述步骤1中具体的训练数据应当具有正确性、全面性、连贯性和可判定性的性质,且包含测试场景中的正确数据、错误数据和边界数据。

14、作为本专利技术所述基于gan的测试数据自动生成方法的一种优选方案,其中:所述步骤2中对于训练数据中的正确值类、错误值类和边界值类,预处理采用随机采样和重采样结合的方式,从三类中进行单例采样,从而得到一组覆盖全面的三元组:

15、tripleti=(ti,fi,mi)    (1)

16、式中:tripleti为第i个三元组,后续i字母同理;t为true的缩写,即为正确值类;f为false的缩写,即为错误值类;m为margin的缩写,即为边界值类;整体公式含义为:第i个三元组由正确值类,错误值类和边界值类中各自的第i个元素组成。

17、作为本专利技术所述基于gan的测试数据自动生成方法的一种优选方案,其中:所述步骤3中的生成网络通过不断学习并努力生成与真实数据分布一致的数据去迷惑判别器,判别网络进化自己的判别能力,使自己能够将真实数据判别正确,将生成数据判别为错误;二者通过不断地对抗博弈,最后收敛至纳什平衡,使得生成网络能够生成与真实数据分布相同的数据。

18、作为本专利技术所述基于gan的测试数据自动生成方法的一种优选方案,其中:所述步骤3中还包括:

19、步骤3.1、以编解码器的形式设计生成网络,网络中的上下采样层都采用了残差块的方式进行构建,以减少编解码过程中的信息损失和训练过程中的梯度消失和性能退化。

20、作为本专利技术所述基于gan的测试数据自动生成方法的一种优选方案,其中:所述步骤3.1中对于满足一定概率分布的输入噪声z~pz(z),编码器通过下采样层对输入噪声进行特征提取,得到其在隐特征空间m为隐空间维度中的特征嵌入特征嵌入embedding经过包含卷积层和平均池化层的普通残差模块后,再输入到解码器中,由解码器对其进行多层上采样解码,从而得到生成的测试样本当需要对生成数据取整时,可使用取整函数对生成数据以1/2的概率进行向上/下取整,其中取整函数计算为:

21、

22、式中:ceil函数为向上取整,floor函数为向下取整,p为概率;该公式的含义是:对生成数据取整时,使用取整函数对生成数据以1/2的概率进行向上或向下取整。

23、作为本专利技术所述基于gan的测本文档来自技高网...

【技术保护点】

1.一种基于GAN的测试数据自动生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于GAN的测试数据自动生成方法,其特征在于:所述步骤1中具体的训练数据应当具有正确性、全面性、连贯性和可判定性的性质,且包含测试场景中的正确数据、错误数据和边界数据。

3.根据权利要求1所述的基于GAN的测试数据自动生成方法,其特征在于:所述步骤2中对于训练数据中的正确值类、错误值类和边界值类,预处理采用随机采样和重采样结合的方式,从三类中进行单例采样,从而得到一组覆盖全面的三元组:

4.根据权利要求1所述的基于GAN的测试数据自动生成方法,其特征在于:所述步骤3中的生成网络通过不断学习并努力生成与真实数据分布一致的数据去迷惑判别器,判别网络进化自己的判别能力,使自己能够将真实数据判别正确,将生成数据判别为错误;二者通过不断地对抗博弈,最后收敛至纳什平衡,使得生成网络能够生成与真实数据分布相同的数据。

5.根据权利要求4所述的基于GAN的测试数据自动生成方法,其特征在于:所述步骤3中还包括:

6.根据权利要求5所述的基于GAN的测试数据自动生成方法,其特征在于:所述步骤3.1中对于满足一定概率分布的输入噪声z~pz(z),编码器通过下采样层对输入噪声进行特征提取,得到其在隐特征空间m为隐空间维度中的特征嵌入特征嵌入embedding经过包含卷积层和平均池化层的普通残差模块后,再输入到解码器中,由解码器对其进行多层上采样解码,从而得到生成的测试样本当需要对生成数据取整时,可使用取整函数对生成数据以1/2的概率进行向上/下取整,其中取整函数计算为:

7.根据权利要求6所述的基于GAN的测试数据自动生成方法,其特征在于:所述步骤3中还包括:

8.根据权利要求1所述的基于GAN的测试数据自动生成方法,其特征在于:所述步骤4中采用最小二乘对抗损失函数计算对抗损失值,生成对抗网络中生成网络的目的是生成出和真实数据分布一直的数据,使得判别网络认为生成数据就是真实数据,即判别D(G(z))→1,生成网络的对抗损失计算为:

9.根据权利要求1所述的基于GAN的测试数据自动生成方法,其特征在于:所述步骤5中分布距离损失值的具体方法包括:记真实数据的概率分布为Xt~N(μt,σt),生成数据的概率分布为Xg~N(μg,σg),其中(μ,σ)分别为分布均值和标准差;

10.根据权利要求1所述的基于GAN的测试数据自动生成方法,其特征在于:所述步骤6中分布交并比损失值的方法包括:对于真实数据的概率分布Xt~N(μt,σt),生成数据的概率分布Xg~N(μg,σg),其分布交并比损失值计算为

...

【技术特征摘要】

1.一种基于gan的测试数据自动生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于gan的测试数据自动生成方法,其特征在于:所述步骤1中具体的训练数据应当具有正确性、全面性、连贯性和可判定性的性质,且包含测试场景中的正确数据、错误数据和边界数据。

3.根据权利要求1所述的基于gan的测试数据自动生成方法,其特征在于:所述步骤2中对于训练数据中的正确值类、错误值类和边界值类,预处理采用随机采样和重采样结合的方式,从三类中进行单例采样,从而得到一组覆盖全面的三元组:

4.根据权利要求1所述的基于gan的测试数据自动生成方法,其特征在于:所述步骤3中的生成网络通过不断学习并努力生成与真实数据分布一致的数据去迷惑判别器,判别网络进化自己的判别能力,使自己能够将真实数据判别正确,将生成数据判别为错误;二者通过不断地对抗博弈,最后收敛至纳什平衡,使得生成网络能够生成与真实数据分布相同的数据。

5.根据权利要求4所述的基于gan的测试数据自动生成方法,其特征在于:所述步骤3中还包括:

6.根据权利要求5所述的基于gan的测试数据自动生成方法,其特征在于:所述步骤3.1中对于满足一定概率分布的输入噪声z~pz(z),编码器通过下采样层对输入噪声进行特征提取,得到其在隐特征空间...

【专利技术属性】
技术研发人员:苟明全淦飞杨波叶臣程俊
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1