一种基于软件网络的缺陷高风险模块的识别方法技术

技术编号：21913838 阅读：25 留言：0更新日期：2019-08-21 12:23

本发明专利技术提出一种基于软件网络的缺陷高风险模块识别方法，属于软件复杂网络领域。包括：步骤一，构建自适应分类器，自适应分类器中包含多个分类器；步骤二，进行自适应特征选择；步骤三，进行自适应阈值寻优；步骤四，进行自适应分类器内部参数调优；步骤五，进行自适应最优预测模型的选择，然后利用最优预测模型对待测软件网络进行缺陷高风险模块识别。本发明专利技术方法无论针对何种类型的缺陷数据集，都能根据数据集自身的特点完成自适应分类器的构建、自适应特征选择、自适应阈值寻优、自适应分类器内部参数调优、自适应最优预测模型的选择等五个方面的内容，取得最好的缺陷预测结果，识别出高风险软件模块。

A Recognition Method of High Risk Defect Modules Based on Software Network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于软件网络的缺陷高风险模块的识别方法
本专利技术应用于软件复杂网络领域，是一种基于软件网络的缺陷高风险模块识别方法。
技术介绍
随着互联网的飞速发展，软件具备越来越丰富的功能，帮助人们开展各项生产活动。软件是否安全可靠得到更多的重视，如何尽早的识别出软件中的缺陷高风险模块已经成为热门的研究领域。准确识别具有缺陷高风险的模块可以提高软件的质量、降低开发的成本。国内外大量的研究已经表明，软件80％的缺陷存在于20％的软件代码中。但是在实际的软件测试中，往往采用均匀覆盖的原则，要求需求和语句100％覆盖，实质上浪费了大量的测试资源。在一些软件三方测试中，测试用例的命中率往往不足1％，甚至更低。而随着软件工程化程度的不断提高和大数据技术的不断实用化，大量的企业和使用方已经积累了越来越多的历史产品缺陷案例，然后再有的放矢的开展测试工作已经成为了国内提高测试效率、发现更多实质性缺陷的一种趋势。国外的一些研究表明使用缺陷预测模型获得的缺陷检测概率(PD)可以达到71％，高于软件代码审查的检查概率(60％)，更高于纯黑盒测试的检测率。通过研究大量的实例发现，依据机器学习中的分类器算法、关联规则等建立模型取得了很好的缺陷高风险预测效果，并且建立在缺陷预测之上的软件测试与普通的软件测试相比，显著的提高了缺陷检测率，减少了测试用例的数量，缩短了测试时间，对于提高软件可靠性有着显著的作用。目前缺陷预测模型所使用的技术主要有单变量统计分析、多变量统计分析、统计分析联合专家分析、机器学习、以及机器学习联合统计分析等(参考文献[1])。单变量统计分析考虑特征较少，例如只关注代码行...

【技术保护点】
1.一种基于软件网络的缺陷高风险模块识别方法，包括：步骤一，构建自适应分类器，自适应分类器中包含多个分类器；步骤二，自适应特征选择方法，包括：(1)预处理，如果数据集中某项特征的80％以上的实例值都相同，则删掉该特征；(2)对带有惩罚因子的分类器采用递归特征消除算法进行特征的选择；(3)对不带惩罚因子的分类器采用单变量特征选择的卡方检验方法进行特征选择；步骤三，进行自适应阈值寻优；对每个分类器，基于训练集构建预测模型，将验证集输入预测模型得到预测值集合，不断遍历预测值集合中的预测值来更换分类器的阈值，每次根据预测标签集合和真实标签集合计算预测模型的性能指标AUC值，选出使AUC值最高的阈值作为分类器的最佳阈值；步骤四，进行自适应分类器内部参数调优；对于岭回归和套索回归分类器，采用随机搜索方法找到最佳步长，对于K最近邻分类模型采用网格搜索方法选出最佳样本数量k值；步骤五，进行自适应最优预测模型的选择；应用不同的分类器在训练集合上构建缺陷预测模型，计算各缺陷预测模型在多个验证集上的AUC值，取AUC均值最大的缺陷预测模型为最优预测模型，然后利用最优预测模型对待测软件网络进行缺陷高风险模块识别。...

【技术特征摘要】
1.一种基于软件网络的缺陷高风险模块识别方法，包括：步骤一，构建自适应分类器，自适应分类器中包含多个分类器；步骤二，自适应特征选择方法，包括：(1)预处理，如果数据集中某项特征的80％以上的实例值都相同，则删掉该特征；(2)对带有惩罚因子的分类器采用递归特征消除算法进行特征的选择；(3)对不带惩罚因子的分类器采用单变量特征选择的卡方检验方法进行特征选择；步骤三，进行自适应阈值寻优；对每个分类器，基于训练集构建预测模型，将验证集输入预测模型得到预测值集合，不断遍历预测值集合中的预测值来更换分类器的阈值，每次根据预测标签集合和真实标签集合计算预测模型的性能指标AUC值，选出使AUC值最高的阈值作为分类器的最佳阈值；步骤四，进行自适应分类器内部参数调优；对于岭回归和套索回归分类器，采用随机搜索方法找到最佳步长，对于K最近邻分类模型采用网格搜索方法选出最佳样本数量k值；步骤五，进行自适应最优预测模型的选择；应用不同的分类器在训练集合上构建缺陷预测模型，计算各缺陷预测模型在多个验证集上的AUC值，取AUC均值最大的缺陷预测模型为最优预测模型，然后利用最优预测模型对待测软件网络进行缺陷高风险模块识别。2.根据权利要求1所述的方法，其特征在于，所述的步骤一中，自适应分类器中包含16种不同的分类器：广义线性模型的线性回归、岭回归、套索回归、最小角回归、逻辑回归和随机梯度下降；向量机模型的支持向量机；最近邻模型的K最近邻；贝叶斯模型的高斯朴素贝叶斯；决策树模型的决策树；集合模型的随机森林、极端随机树、自适应增强算法和梯度提升决策树；判别分析模型的线性判别分析和二次判别分析。3.根据权利要求1所述的方法，其特征在于，所...

【专利技术属性】
技术研发人员：艾骏，杨益文，苏文翥，王飞，郭皓然，邹卓良，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人