一种基于主成分分析和组合采样的软件缺陷预测方法技术

技术编号：21453811 阅读：46 留言：0更新日期：2019-06-26 04:44

本发明专利技术公开了一种基于主成分分析和组合采样的软件缺陷预测方法，包括如下步骤：步骤S1：对软件缺陷数据利用融合特征选择降维去噪；步骤S2：对降维后的数据执行SMOTE过采样和分层随机采样相结合进行采样，其中过采样是指通过增加少数类样本的数量，从而使得数据集中类样本达到相对平衡，分层随机采样通过划分类进行分层，在每层内采用无放回随机采样；步骤S3：对处理后的数据选取分类器并对分类器参数进行调优。本发明专利技术选择随机森林分类器，其随机选择特征子集的特性，从而进一步达到对树的随机化目的，避免了分类器过拟合问题的出现，最终提升了软件缺陷预测性能以及预测效率，为现实中预测有缺陷软件提供了良好的理论和实验依据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主成分分析和组合采样的软件缺陷预测方法
本专利技术涉及缺陷预测方法，尤其涉及到一种基于主成分分析和组合采样的软件缺陷预测方法。
技术介绍
随着互联网技术的发展，软件产品质量的可靠性已成为软件工程领域的关注性问题，在软件开发的过程中必然会伴随着软件缺陷的出现。然而，对于本身具有潜在威胁的软件，一旦投入使用就会对公司乃至个人造成巨大的经济损失。为了有效解决这一问题，必须准确快速的预测软件可能存在的缺陷模块，从而提高软件系统的可靠性。目前，相关的软件缺陷预测方法主要是利用不同类型的机器学习技术。其主要考虑的是整体数据的预测准确率，虽然在此方面取得了较大的成就，但在数据预处理方面还存在很多需要改善的地方。现有技术中已有采用公开的NASA数据集对RandomForest，NaiveBayes，RPart以及SVM分类算法进行了灵敏度分析，表明不同的分类器针对不同数据集预测能力具有不确定性。考虑到这种不确定性，现有技术提出了一种新的贝叶斯组合模型，通过不断调整基模型的信用值来预测QoS，从而达到良好的预测精度。然而，这些研究并没有考虑到软件缺陷预测中的数据高维性和数据分布不均衡，缺陷类样本数通常比无缺陷类样本数高很多，导致作为多类的无缺陷样本特征掩盖少类的缺陷样本特征，使得虽整体准确率很高但针对缺陷类样本的预测性能较差；误分代价差异较大，将有缺陷倾向的模块标记为无缺陷倾向模块后，需要花费很高的代价进行更正等问题。尤其是针对少数类而言，不平衡分布使得某些机器学习方法表现效果不佳。为了解决这一问题，目前在数据层面，采用特征选择或特征提取，采样技术应用于数据集。特征...

【技术保护点】
1.一种基于主成分分析和组合采样的软件缺陷预测方法，其特征在于，包括如下步骤：步骤S1：对软件缺陷数据利用融合特征选择降维去噪；步骤S2：对降维后的数据执行SMOTE过采样和分层随机采样相结合进行采样，其中过采样是指通过增加少数类样本的数量，从而使得数据集中类样本达到相对平衡，分层随机采样通过划分类进行分层，在每层内采用无放回随机采样；步骤S3：对处理后的数据选取分类器并对分类器参数进行调优。

【技术特征摘要】
1.一种基于主成分分析和组合采样的软件缺陷预测方法，其特征在于，包括如下步骤：步骤S1：对软件缺陷数据利用融合特征选择降维去噪；步骤S2：对降维后的数据执行SMOTE过采样和分层随机采样相结合进行采样，其中过采样是指通过增加少数类样本的数量，从而使得数据集中类样本达到相对平衡，分层随机采样通过划分类进行分层，在每层内采用无放回随机采样；步骤S3：对处理后的数据选取分类器并对分类器参数进行调优。2.根据权利要求1所述的软件缺陷预测方法，其特征在于，步骤S1利用主成分分析法去除软件缺陷数据集中无关和冗余属性进行降维去噪，其中，主成分分析方法将m维特征通过线性变换映射到新的d维正交特征上，其中d<m，同时保留原始特征的绝大部分信息，并将重新构造出来的d维特征称为主元，从而使得数据由原来的m个特征降低到d个特征，具体包括如下步骤：步骤S101：将软件缺陷数据集以矩阵Xn×m形式输入Xm×n，其中矩阵的行数n表示软件缺陷数据集中样本的个数，列数m表示每个样本的特征数目；步骤S102：按列计算矩阵Xn×m的均值，从而得到均值矩阵并将矩阵Xn×m中的每一行元素均减去得到进行中心化的样本Hn×m；步骤S103：计算中心化后样本Hn×m的协方差矩阵HHT，并对协方差矩阵进行特征值分解，求得对应的m个特征向量ω，然后将m个特征值λ进行降序排序，排序结果为λ1≥λ2≥...≥λm，最后，通过计算贡献率并为其设定一个阈值为0.95，确定满足贡献率不小于此阈值的d值，取最大的d个特征值所对应的特征向量ω1,ω2...

【专利技术属性】
技术研发人员：何海涛，任家东，张旭，胡昌振，
申请(专利权)人：燕山大学，
类型：发明
国别省市：河北,13

全部详细技术资料下载我是这个专利的主人