The present invention discloses a method for modeling and optimizing the performance of a software system based on a generative countermeasure network, which mainly solves the problems of high time cost, great training difficulty, easy collapse of the training network and limited optimization space of the existing technology. Its implementation scheme includes: 1) acquiring the feature sample set of the software system; 2) fixing the hardware environment, configuring the software system, testing the performance of the software system according to the feature sample set, acquiring throughput or time delay, and preprocessing them, then unithermal coding and normalization in turn, to obtain structured data; 3) at the beginning of each iteration, from the structured data of the previous step. Half of the training samples are randomly selected to train the generative countermeasure network iteratively, and the optimized samples are obtained. 4) The performance of the training samples and the optimized samples is compared to verify the optimization effect. The invention reduces the time cost, improves the robustness and stability of the network, has obvious optimization effect, and can be used for processing the Internet and large data.
【技术实现步骤摘要】
基于生成式对抗网络的软件系统性能优化方法
本专利技术属于计算机
,特别涉及一种对软件系统的性能优化方法,可用于互联网、大数据的处理。
技术介绍
当下,在互联网、大数据高速发展的时代,随着数据量的日益增大,如何在硬件系统一定的条件下,优化软件系统的性能,已经被广泛讨论。目前流行的一些分布式软件系统包括Spark、Hive、HBase和Kafka等。因而,对各种软件系统如何进行精细化性能建模与优化仍然是工业界和学术界的热点问题。深圳先进技术研究院所在其申请的专利文献“一种数据感知的Spark配置参数自动优化方法”(申请号:201611182310.5申请日期:2016.12.20公开号:CN106648654A)中公开了一种数据感知的Spark配置参数自动优化方法。该方法通过选定Spark应用程序,进一步确定上述应用程序中影响Spark性能的参数,确定上述参数的取值范围;在取值范围内随机生成参数,并生成配置文件配置Spark,配置后运行应用程序并收集数据;将收集的Spark运行时间、输入数据集、配置参数值数据构成横向量,多个向量构成训练集,通过随机森林算法对上述训练集进行建模;使用构建好的性能模型,通过遗传算法搜索最优配置参数。该方法存在的不足之处是,需要在实际环境上评价每个配置对分布式内存计算框架Spark集群性能影响力,作为随机森林模型的训练集,浪费大量时间成本。北京航空航天大学在其申请的专利文献“一种基于复杂网络理论评估软件系统可靠性的方法”(申请号:201810088519.8申请日期:2018.1.30公开号:108255733A)中公开了一种 ...
【技术保护点】
1.基于生成式对抗网络的软件系统性能优化方法,其特征在于,包括如下:(1)获取样本特征集合:(1a)根据软件系统的官方配置文档,得到所有可配置参数,筛选并删除对软件性能无影响的参数;(1b)将筛选留下的参数按照官方给出的重要性程度进行排序,再次删除对性能影响程度特别小,且对性能预测没有意义且完全可忽略的参数,得到样本特征集合;(2)在服务器内安装软件系统,根据步骤(1)获取的样本特征集合,搭建软件系统的实际运行环境,随机取不同的参数值,得到多组样本特征,通过对样本特征测试,获取每一组样本对应的软件系统吞吐量或者时延数据,得到实验样本集合;(3)遍历步骤(2)得到的实验样本集中的所有参数,对其中属于枚举变量的参数进行独热编码,并将所有的变量进行归一化,产生能够进行模型训练的结构化数据集合;(4)选择训练样本:4.1)对得到的多组结构化数据按照吞吐量或者时延值进行排序,根据实际需求,选取若干数量的最好样本特征进行迭代训练;4.2)每次迭代过程中,再从上一步选择的样本中随机且不重复选择一半数量的样本特征,作为训练样本,并打乱顺序输入到生成式对抗网络中,以保证训练样本的多样性和可靠性。(5)训 ...
【技术特征摘要】
1.基于生成式对抗网络的软件系统性能优化方法,其特征在于,包括如下:(1)获取样本特征集合:(1a)根据软件系统的官方配置文档,得到所有可配置参数,筛选并删除对软件性能无影响的参数;(1b)将筛选留下的参数按照官方给出的重要性程度进行排序,再次删除对性能影响程度特别小,且对性能预测没有意义且完全可忽略的参数,得到样本特征集合;(2)在服务器内安装软件系统,根据步骤(1)获取的样本特征集合,搭建软件系统的实际运行环境,随机取不同的参数值,得到多组样本特征,通过对样本特征测试,获取每一组样本对应的软件系统吞吐量或者时延数据,得到实验样本集合;(3)遍历步骤(2)得到的实验样本集中的所有参数,对其中属于枚举变量的参数进行独热编码,并将所有的变量进行归一化,产生能够进行模型训练的结构化数据集合;(4)选择训练样本:4.1)对得到的多组结构化数据按照吞吐量或者时延值进行排序,根据实际需求,选取若干数量的最好样本特征进行迭代训练;4.2)每次迭代过程中,再从上一步选择的样本中随机且不重复选择一半数量的样本特征,作为训练样本,并打乱顺序输入到生成式对抗网络中,以保证训练样本的多样性和可靠性。(5)训练优化模型:5a)在第一次迭代训练开始时,输入选择好的训练样本x,使用生成式对抗网络中的生成网络模型G,产生与训练样本维度一致的生成样本z;5b)将训练样本x和生成样本z一起输入对抗网中的判别模型D中,得到判别模型D对训练样本x与生成样本z真实性的判别概率;5c)根据5b)的两个判别概率通过下式对生成模型G和判别模型D进行修正:其中,V表示系统性能,x~pr(x)表示关于样本特征x的分布,r表示样本的参数数量,z~pn(z)表示关于样本特征z的分布,n表示样本的参数数量;5d)开始第二次迭代,重复5a-5c,不断优化生成模型G和判别模型D,直至达到预先设定好的迭代次数,得到最终的优化样本;(6)优化效果验证:将通过生成式对抗网络模型得到的优化样本在软件系统上进行测试,得到优化样本的吞吐量或者时延值;将优化样本与原始训练样本的吞吐量或者时延值进行对比,得到生成式对抗网络模型对软件系统的性能优化效果。2.根据权利要求1所述的方法,其特征在于,步骤(2)中搭建软件系统的实际运行环境,是在服务器上创建四台性能完全一样的虚拟机,其中两台虚拟机用来安装软件系统集群,另外两台用来安装集群管理软件系统,通过上述四台服务器搭建实时数据处理软件系统。3.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:鲍亮,王方正,方宝印,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。