基于改进的Adaboost软件缺陷不平衡数据分类方法技术

技术编号：14989586 阅读：76 留言：0更新日期：2017-04-03 20:31

本发明专利技术公开了一种基于改进的Adaboost软件缺陷不平衡数据分类方法，主要解决现有软件缺陷数据的分类方法对少数类分类效果差的问题，包括以下步骤：A.从软件数据集中获取软件数据，做预处理。并将软件模块数据分为训练集和测试集以备训练和测试，采用十次交叉验证；B.利用基于改进的遗传算法与BP神经网络结合进行软件数据的特征选择，得到最优特征子集，从而对软件特征进行降维处理；C.根据得到的最优特征子集，充分考虑软件缺陷数据的不平衡性，训练基于改进的Adaboost分类器，对软件模块进行分类。本发明专利技术可提高少数类的分类精度，更好地检测软件缺陷模块。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于软件工程应用领域，具体涉及一种基于改进的Adaboost软件缺陷不平衡数据分类方法。
技术介绍
随着当代信息技术的高速发展，软件系统已经运用到国防建设、国民经济的各个方向和部门，以及人类活动的各个领域。软件系统所发挥的作用越来越大，相应地其规模也日益增大。例如，美国电信需要一个有超过一亿行代码的系统进行支持；航天飞机的机载系统有着近50万行的代码，地面控制系统及处理系统代码约有35万行，即使在对系统进行了大规模的缩减后，仍有将近百万行的代码来操纵整个航天系统。高稳定性对于这些装备来说极其重要，而大部分的装备系统的稳定性由计算机软件系统的安全性和可靠性决定的。因此，软件系统的稳定性和可靠性直接关系到整个系统的可靠性。由于各种原因，一些软件的缺陷是不可避免的发生，这些错误导致了软件缺陷隐含在软件中。对于隐藏的缺陷，如果不能及时地、准确地发现，有效地排除，将会对软件质量产生很大影响，甚至给软件使用者带来灾难性后果。曾有研究表明，专业软件开发人员平均每一千行代码就有6个缺陷，更糟糕的是随着软件规模增加，软件内在的缺陷数量呈指数增长。软件缺陷的过多导致缺陷定位和测试修复成本大大增加。例如，微软平均定位和修改一个软件缺陷需要12个小时；美国联邦调查局研究显示，有软件故障造成的直接经济损失达600亿美元。为了提高软件系统质量，学者们提出了软件缺陷预测的概念，软件缺陷预测可以帮助开发者更快地...

【技术保护点】
基于改进的Adaboost软件缺陷不平衡数据分类方法，其特征在于，主要包括以下三个步骤：A.从软件数据集中获取数据，包括软件特征集和软件模块，并对其进行预处理；将软件模块数据分为训练集和测试集以备训练和测试；本专利技术采用十次交叉验证，将软件模块数据集分成十份，其中九份做训练，一份做测试；B.利用基于改进的遗传算法与BP神经网络结合进行软件数据的特征选择，得到最优特征子集，从而对软件特征进行降维处理，减少运算时间；(1)随机产生初始种群，种群大小为P；对特征集进行二进制编码，0代表选择特征，1表示不选择特征；(2)以BP神经网络训练数据集，根据预测误差调整网络的权值和阈值；(3)利用遗传算法对BP神经网络进行优化，进行选择、交叉、变异的操作；为充分考虑软件数据集的不平衡性，适应度函数采用普遍适用于不平衡数据分类评价的Gmeans，较高的Gmeans值表示分类器是平衡的，即对两个类的分类来说都有好的性能，定义如下：fitness=Gmeans=true positive rate×true negative rate=TPTP+FN×TNFP+TN]]>其中，TP...

【技术特征摘要】
1.基于改进的Adaboost软件缺陷不平衡数据分类方法，其特征在于，主要
包括以下三个步骤：
A.从软件数据集中获取数据，包括软件特征集和软件模块，并对其进行预处
理；将软件模块数据分为训练集和测试集以备训练和测试；本发明采用十
次交叉验证，将软件模块数据集分成十份，其中九份做训练，一份做测
试；
B.利用基于改进的遗传算法与BP神经网络结合进行软件数据的特征选择，得
到最优特征子集，从而对软件特征进行降维处理，减少运算时间；
(1)随机产生初始种群，种群大小为P；对特征集进行二进制编码，0代
表选择特征，1表示不选择特征；
(2)以BP神经网络训练数据集，根据预测误差调整网络的权值和阈值；
(3)利用遗传算法对BP神经网络进行优化，进行选择、交叉、变异的操
作；为充分考虑软件数据集的不平衡性，适应度函数采用普遍适用于不平衡数
据分类评价的Gmeans，较高的Gmeans值表示分类器是平衡的，即对两个类
的分类来说都有好的性能，定义如下：
fitness=Gmeans=truepositiverate×truenegativerate=TPTP+FN×TNFP+TN]]>其中，TP为实际有缺陷且分类正确的模块数，FN为实际有缺陷但被分类错误
的模块数，FP为实际无缺陷但被分类错误的模块数，TN为实际无缺陷且分类
正确的模块数；
(4)判断是否达到迭代次数，若达到，则输出当前最优特征子集，否则
执行以下过程
(a)根据适应度函数选择遗传到下一代的个体，适应度越高被选择的概
率越大；
(b)采用单点交叉算子...

【专利技术属性】
技术研发人员：李克文，邹晶杰，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人