当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于信息熵过采样的软件缺陷预测方法及系统技术方案

技术编号:33443312 阅读:31 留言:0更新日期:2022-05-19 00:29
本发明专利技术提供一种基于信息熵过采样的软件缺陷预测方法及系统,方法包括:获取软件缺陷数据集;将数据集划分为训练集测试集,并计算训练集中多数类样本和少数类样本的类确定性熵;根据类确定性熵将多数类样本和少数类样本划分为安全样本、关键样本、危险样本,并选择少数类关键样本作为种子样本;清除多数类危险样本;对少数类关键样本局部邻域约束过采样;采用新的平衡训练集训练软件缺陷预测模型,并对测试集进行测试。本发明专利技术解决了现有技术中存在的类不平衡及类重叠问题对分类模型产生不利影响,导致软件缺陷预测效果较差的技术问题。导致软件缺陷预测效果较差的技术问题。导致软件缺陷预测效果较差的技术问题。

【技术实现步骤摘要】
一种基于信息熵过采样的软件缺陷预测方法及系统


[0001]本专利技术属于软件缺陷预测领域,涉及一种基于信息熵过采样的软件缺陷预测方法及系统。

技术介绍

[0002]软件缺陷是指软件系统中的缺陷、错误或者失效等。它的存在会使软件系统出现运行故障,从而影响软件产品质量。随着软件系统在诸如银行、医院、飞行控制等各行各业的广泛应用,提供无缺陷的软件产品显得尤为重要。软件缺陷预测是指基于软件项目历史数据及已发现的缺陷,利用统计学习或机器学习技术挖掘遗留在软件项目中尚未被发现的缺陷及其分布的技术,可以有效提高软件的质量,更好的满足用户的需求,同时也降低了软件开发的成本,对软件开发过程具有重要意义。
[0003]然而,80%的缺陷往往集中在20%的程序模块中,缺陷数据分布不均匀,数据集中缺陷模块(即少数类样本)比无缺陷模块(即多数类样本)的数目明显要少,软件缺陷数据的分布高度倾斜,此类数据通常被称为类不平衡数据。专利号为201510107598.9的专利技术专利《一种基于过采样的信号检测方法》通过对通信信号进行过采样;对过采样后的样本进行不同时间偏置本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于信息熵过采样的软件缺陷预测方法,其特征在于,应用于软件缺陷预测,所述方法包括:获取软件缺陷数据集;将数据集划分为训练集和测试集,并计算所述训练集中多数类样本和少数类样本的类确定性熵;根据所述类确定性熵将所述多数类样本和所述少数类样本划分为安全样本、关键样本、危险样本,选择所述少数类关键样本作为种子样本;清除所述多数类样本中的所述危险样本,并约束过采样所述少数类样本中的所述关键样本的局部邻域,据以得到平衡训练集;利用所述平衡训练集训练软件缺陷预测模型,据以测试所述测试集。2.根据权利要求1所述的一种基于信息熵过采样的软件缺陷预测方法,其特征在于,所述将数据集划分为训练集和测试集,并计算所述训练集中多数类样本和少数类样本的类确定性熵的步骤,包括:利用五折交叉验证法将所述数据集划分为所述训练集和所述测试集,将软件缺陷预测数据集中的每个模块作为一个样本,不平衡的训练集用表示,用X
P
表示所述少数类样本,用X
N
表示所述多数类样本;计算出当前所述少数类样本的k近邻距离,采用欧式距离,公式如下;根据所述k近邻样本计算出其中所述少数类样本的个数占比和所述多数类样本的个数占比;以下述逻辑计算这个少数类样本的所述类确定性熵:以下述逻辑计算这个少数类样本的所述类确定性熵:以下述逻辑计算这个少数类样本的所述类确定性熵:其中p
i
、q
i
分别为同类个数和异类个数占比,当p
i
=0时,p
i
log2p
i
=0,当p
i
=q
i
=(k/2)时,E
max
=1;重复步骤S201、S202、S203,直到所有的少数类样本都计算完毕,在计算多数类样本类确定性熵时,仅仅需要将(2)判断条件中的p
i
改为q
i
。3.根据权利要求2所述的一种基于信息熵过采样的软件缺陷预测方法,其特征在于,所述根据所述类确定性熵将所述多数类样本和所述少数类样本划分为安全样本、关键样本、危险样本,选择所述少数类关键样本作为种子样本的步骤,包括:获取类确定性熵阈值数据;根据所述类确定性熵阈值数据划分处理所述多数类样本和所述少数类样本;
当所述多数类样本及所述少数类样本的所述类确定性熵满足:0≤E(x
i
)≤α
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)时,划分当前样本为所述安全样本;当所述多数类样本及所述少数类样本的所述类确定性熵满足:α<E(x
i
)<β
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)时,划分当前样本为所述关键样本;当所述多数类样本及所述少数类样本的所述类确定性熵满足:β≤E(x
i
)≤2E
max
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)时,划分当前样本为所述危险样本;将所述少数类的所述关...

【专利技术属性】
技术研发人员:严远亭苏振张以文张燕平
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1