基于平衡子集的软件缺陷预测方法、系统、设备及介质技术方案

技术编号：33624245 阅读：18 留言：0更新日期：2022-06-02 00:52

本发明专利技术实施例中提供了一种基于平衡子集的软件缺陷预测方法、系统、设备及介质，属于数据处理技术领域，具体包括：获取目标软件运行过程产生的不平衡数据集，其中，所述不平衡数据集包括原始多类集合和原始少类集合；将原始多类集合X

全部详细技术资料下载

【技术实现步骤摘要】
基于平衡子集的软件缺陷预测方法、系统、设备及介质

[0001]本专利技术实施例涉及数据处理
，尤其涉及一种基于平衡子集的软件缺陷预测方法、系统、设备及介质。

技术介绍

[0002]常见的软件缺陷预测方法假定数据集中的全部类别都是平衡的，即样本数量大致相等。然而，在软件实际运行过程中，往往具有缺陷的情形远远多于无缺陷的情形。不平衡问题被广泛认为是导致软件缺陷预测模型性能不佳的主要原因之一。因此，需要构造基于不平衡数据的软件缺陷预测模型。
[0003]近年来，各种各样针对软件缺陷预测的数据重平衡方法被提出来。尽管它们中的一些取得了较好的性能，然而存在以下不足：对于上采样方法，它们需要合成大量的少类样本，从而使少类样本的数量与多类一致。然而，过多的合成新样本，可能会引入大量的噪声数据导致预测性能下降。
[0004]对于下采样方法，它们需要删除大量的多类样本，从而使多类样本的数量与少类相同。然而，过多的删除原有样本，会丢失大量的信息，特别是部分对预测起关键作用的信息。
[0005]组合采样方法虽然在一定程度上缓解了单独使用上采样或下采样的缺点，然而现有的组合采样方法在实现过程中仍然是以一种采样方式为主，另一种采样方式为辅。因此，同样需要删除或合成大量的样本。
[0006]综上所述，亟需一种新的基于平衡子集的软件缺陷预测方法，能够在既不删除大量原始样本也不合成大量新样本的情况下使得初始不平衡数据集达到类别平衡，消除数据不平衡带来的性能下降问题，进而提升软件缺陷预测的精准度。
专利技...

【技术保护点】

【技术特征摘要】
1.一种基于平衡子集的软件缺陷预测方法，其特征在于，包括：步骤1，获取目标软件运行过程产生的不平衡数据集，其中，所述不平衡数据集包括原始多类集合和原始少类集合；步骤2，将原始多类集合X
N
随机划分为V个样本数相等的子类；步骤3，根据用户输入的划分指令选择不同的划分策略，其中，所述划分策略为基于随机划分的平衡子集构造策略或基于层次划分的平衡子集构造策略的任一种；步骤4，根据所述划分策略、全部所述子类和所述原始少类集合，构造所述不平衡数据集对应的V个平衡子集并进行集成学习，得到所述目标软件的缺陷类别。2.根据权利要求1所述的方法，其特征在于,V 的计算公式为，其中，n
N
和n
P
分别表示所述原始多类集合和所述原始少类集合的样本数量。3.根据权利要求1所述的方法，其特征在于,当所述划分策略为基于随机划分的平衡子集构造策略时，所述步骤4具体包括：分别将每个所述子类与所述原始少类集合组合形成一个平衡子集，得到V个平衡子集。4.根据权利要求3所述的方法，其特征在于,每个子集中包含数量相同的多类样本与少类样本。5.根据权利要求1所述的方法，其特征在于,当所述划分策略为基于层次划分的平衡子集构造策略时，所述步骤4具体包括：步骤4.1，利用k
‑
means聚类方法将多类数据聚成k个类簇；步骤4.2，对每个所述类簇进行分层抽样，使得抽样后构成的每个子类的样本数量与所述原始少类集合的样本数量相同；步骤4.3，分别将每个所述子类与所述原始少类集合组合形成一个平衡子集，得到V个平衡子集；步骤4.4，利用SVM分类模型对每个平衡子集...

【专利技术属性】
技术研发人员：张新玉，余绍黔，李晓翠，史庆宇，
申请(专利权)人：湖南工商大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人