面向软件缺陷数据的特征选择及分类方法技术

技术编号：12996369 阅读：118 留言：0更新日期：2016-03-10 11:12

本发明专利技术公开了一种面向软件缺陷数据的特征选择及分类方法，可用于指导软件缺陷数据分类的整个过程，包括以下步骤：A.从软件数据集中获取数据，对数据进行预处理，包括对数据做标签处理和根据已有经验知识将软件特征分成三类；B.根据互信息理论，计算出与类别相关性最大，特征间相关性最小的特征，将其加入最优软件特征集；C.对选择出的软件特征作用于分类器，且按分类效果进行升序排列；D.利用二维循环级联Adaboost以及最优特征子集对软件模块进行缺陷预测，及时准确地剔除无缺陷的样本，从而减少运算时间。本发明专利技术克服软件缺陷数据的不平衡性，及时剔除多数类以平衡数据集，以此减少运行时间，提高运算效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于软件工程应用领域，具体涉及一种面向软件缺陷数据的特征选择及分类方法。
技术介绍
目前，软件系统规模日益增大并且其逻辑复杂性也日益增强，伴随着软件中存在缺陷的模块增加，这势必威胁软件的可靠性，影响软件质量，造成不可估量的损失。软件缺陷预测技术作为指导和评估软件测试工作的一种重要的途径，可以准确地预测软件缺陷的分布情况，这对于提高软件质量有着重要的现实意义。针对一个软件系统，合理地预测缺陷可以统计尚未发现但仍存在的缺陷数目及缺陷分布。软件缺陷预测的关键是发现有缺陷的模块，这本质上是一个二分类问题，即将软件模块分为"有缺陷"和"无缺陷"两类。分类的前提是进行特征选择，根据选择出的最优特征子集进行分类。但在实际操作中，软件缺陷预测过程存在以下两个难点： (1)软件特征存在大量冗余特征 2004年，美国宇航局公开了软件数据集（NASAMDP)，他们从源代码中提取的各种软件特征，主要包括三大类一L0C，McCabe和Halstead。在每一类软件特征中，除了基本特征是从源代码中直接抽取，其他的特征都是由这些基本特征值间接计算获得。且有实验证明，只需要三个重要的软件特征就可以预测软件模块是否含有缺陷。可见，每一类软件特征中，存在着较多的冗余特征。大量的冗余或不相关特征参与运算，势必会降低运算速度和效率。因此，需要对软件特征进行降维处理，根据软件特征的类别，在每一类中选择出对软件缺陷预测影响力大的特征即可。 (2)软件模块数据存在严重的不平衡性在实际的软件模块中，"有缺陷"的模块（少数类）数量要远远少于"无缺陷"（...

【技术保护点】
面向软件缺陷数据的特征选择及分类方法，其特征在于，主要包括以下三个步骤：A.从软件数据集中获取数据，对数据进行预处理(1)数据包括软件特征集、软件模块；将软件模块数据分为训练集和测试集以备训练和测试；本专利技术采用十次交叉验证，将数据集分成十份，其中九份做训练，一份做准确度测试；并将数据做标签处理；(2)根据已有知识将特征集分类，得到三个特征集，分别是LOC类，McCabe类和Halstead类；B.根据互信息理论获得最优软件特征集(1)根据互信息理论计算出三个特征集中每个特征fi与类y1和y2的相关性，根据相关性大小按降序排列，三个特征集中只取相关性排名前50％的特征，得到三个筛减后的特征子集；(2)分别计算三个筛减后的特征子集中各个特征间的相关性，去除与排名前30％的特征相关性大的特征，保证最终的最优特征子集为S，大小为t且S＝{L，M，H}；C.对选择出的软件特征按分类效果进行排序(1)将得到的最优特征，依次输入SVM并对其进行训练；(2)将训练好的分类模型作用于测试集，得到分类结果后，根据Gmeans值的大小对软件特征进行从小到大排序，按顺序依次取每类特征的一个元素，组成最优特...

【技术特征摘要】

【专利技术属性】
技术研发人员：李克文，邹晶杰，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人