一种基于深度学习的异质软件工作量估计方法技术

技术编号：22296293 阅读：66 留言：0更新日期：2019-10-15 05:18

本发明专利技术涉及计算机软件技术领域，更具体地，涉及一种基于深度学习的异质软件工作量估计方法，包括：步骤S1：建立数据集，包括源数据集与目标数据集；其中，目标数据集为用户自有的一个数据集；源数据集为与目标数据集存在异质性的一个数据集；步骤S2：利用源数据集与目标数据集训练自编码器；步骤S3：从自编码器提取数据特征，把数据特征输入卷积神经网络训练预测器，使用预测器生成软件工作量的预测值。卷积神经网络能自动提取数据的高层次含义，使软件工作量估计的工作更为高效，还节省了资源。

A Heterogeneous Software Workload Estimation Method Based on Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的异质软件工作量估计方法
本专利技术涉及计算机软件
，更具体地，涉及一种基于深度学习的异质软件工作量估计方法。
技术介绍
随着互联网走进千家万户，计算机技术日新月异，软件作为一种信息技术的主要载体已成为了人类社会不可或缺的一部分。软件需求的日益增多，软件开发的代码也愈加复杂，对软件工作量的估计也愈加困难。软件工作量估计(SoftwareEffortEstimation，简称SEE)是企业软件项目开发中的一项重要活动，准确的软件工作量估计能使企业做出合理的规划，降低管理成本，从而增强运作效率，提高经济效益。对于软件工作量估计目前已有不少对应的方案，但普遍都存在无法适用或预测结果不准确的问题，究其原因在于考量的因素有限导致的。例如Boehm等人提出的COCOMO模型，其模型的原理是：用一个以已估算出来的原代码行数(LOC)为自变量的经验函数计算软件开发工作量。又例如Albrecht提出了一个基于功能点分析的项目评价方法，将团队的生产率比如每人月的功能点数用于所需工作量的评估。上述的两种方案在软件工作量估计的实际应用中都有不俗的表现，与众多的方案对比也算得上优秀，但是这两种方案的实现都是建立在数据充足的基础上的。在对软件工作量估计的工作中，往往会面临数据干涸的问题。这大多发生在新成立的企业或部门身上，因为本身历史数据的缺乏，无法提供足够的数据进行软件工作量估计，还有的就是企业对于隐私和安全方面考虑，无法对外公开足够的数据。这种种的情况，使企业内部可提供的数据十分有限，并且数据可用性也不高。而数据量的不足与数据的可用性差会导致预测出来的结果不...

【技术保护点】
1.一种基于深度学习的异质软件工作量估计方法，其特征在于，所述方法包括：步骤S1：建立数据集，包括源数据集与目标数据集；其中，目标数据集为用户自有的一个数据集；源数据集为与目标数据集存在异质性的一个数据集；步骤S2：利用源数据集与目标数据集训练自编码器；步骤S3：从自编码器提取数据特征，把数据特征输入卷积神经网络训练预测器，使用预测器生成软件工作量的预测值。

【技术特征摘要】
1.一种基于深度学习的异质软件工作量估计方法，其特征在于，所述方法包括：步骤S1：建立数据集，包括源数据集与目标数据集；其中，目标数据集为用户自有的一个数据集；源数据集为与目标数据集存在异质性的一个数据集；步骤S2：利用源数据集与目标数据集训练自编码器；步骤S3：从自编码器提取数据特征，把数据特征输入卷积神经网络训练预测器，使用预测器生成软件工作量的预测值。2.根据权利要求1所述的一种基于深度学习的异质软件工作量估计方法，其特征在于，所述步骤S2包括：自编码器通过输入向量的聚合后验分布和任意的先验分布进行匹配来完成正则化；所述输入向量的聚合后验分布为：q(z)＝∫xq(z|x)pd(x)dx所述任意的先验分布为：p(z)其中，x表示输入向量，z表示编码器的潜在编码向量，q(z|x)表示将x编码为z的编码分布，pd(x)表示数据分布，p(x|z)表示将z解码为x的解码分布。3.根据权利要求2所述的一种基于深度学习的异质软件工作量估计方法，其特征在于，所述输入向量为目标数据集x1，聚合后验分布为：所述任意的先验分布为源数据集x2的先验分布，所述自编码器通过q(z)与p(z)进行匹配来完成正则化，完成训练。4.根据权利要求1所述的一种基于深度学习的异质软件工作量估计方法，其特征在于，所述自编码器包含编码器和解码器，所述编码器对目标数据集进行编码，生成潜在编码向量；所述解码器对潜在编码向量进行解码，重构编码前的数据。5.根据权利要求4所述的一种基于深度学习的异质软件工作量估计方法，其特征在于，所述自编码器为对抗自编码器，所述对抗自编码器包含生成器和判别器，所述生成器与判别器对抗，两者的对抗求解公式如下：其中，G表示生成器，D表示判别器，x表示根据真实数据分布生成的样本，G(z)表示根据先验概率p(z)生成的样本，训练判别器D时，logD(x)越大判别器D区分真实数据分布与模拟数据分布的能力越强，所以需要maxD，训练生成器G时...

【专利技术属性】
技术研发人员：荆晓远，齐富民，訾璐，黄鹤，姚永芳，
申请(专利权)人：广东石油化工学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人