基于平衡子集的软件缺陷预测方法、系统、设备及介质技术方案

技术编号:33624245 阅读:18 留言:0更新日期:2022-06-02 00:52
本发明专利技术实施例中提供了一种基于平衡子集的软件缺陷预测方法、系统、设备及介质,属于数据处理技术领域,具体包括:获取目标软件运行过程产生的不平衡数据集,其中,所述不平衡数据集包括原始多类集合和原始少类集合;将原始多类集合X

【技术实现步骤摘要】
基于平衡子集的软件缺陷预测方法、系统、设备及介质


[0001]本专利技术实施例涉及数据处理
,尤其涉及一种基于平衡子集的软件缺陷预测方法、系统、设备及介质。

技术介绍

[0002]常见的软件缺陷预测方法假定数据集中的全部类别都是平衡的,即样本数量大致相等。然而,在软件实际运行过程中,往往具有缺陷的情形远远多于无缺陷的情形。不平衡问题被广泛认为是导致软件缺陷预测模型性能不佳的主要原因之一。因此,需要构造基于不平衡数据的软件缺陷预测模型。
[0003]近年来,各种各样针对软件缺陷预测的数据重平衡方法被提出来。尽管它们中的一些取得了较好的性能,然而存在以下不足:对于上采样方法,它们需要合成大量的少类样本,从而使少类样本的数量与多类一致。然而,过多的合成新样本,可能会引入大量的噪声数据导致预测性能下降。
[0004]对于下采样方法,它们需要删除大量的多类样本,从而使多类样本的数量与少类相同。然而,过多的删除原有样本,会丢失大量的信息,特别是部分对预测起关键作用的信息。
[0005]组合采样方法虽然在一定程度上缓解了单独使用上采样或下采样的缺点,然而现有的组合采样方法在实现过程中仍然是以一种采样方式为主,另一种采样方式为辅。因此,同样需要删除或合成大量的样本。
[0006]综上所述,亟需一种新的基于平衡子集的软件缺陷预测方法,能够在既不删除大量原始样本也不合成大量新样本的情况下使得初始不平衡数据集达到类别平衡,消除数据不平衡带来的性能下降问题,进而提升软件缺陷预测的精准度。
专利技术内容
[0007]鉴于此,本专利技术实施例提供一种基于平衡子集的软件缺陷预测方法、系统、设备及介质,至少部分解决现有技术中存在预测精度低和效率较差的问题。
[0008]第一方面,本专利技术实施例提供了一种基于平衡子集的软件缺陷预测方法,包括:步骤1,获取目标软件运行过程产生的不平衡数据集,其中,所述不平衡数据集包括原始多类集合和原始少类集合;步骤2,将原始多类集合X
N
随机划分为V个样本数相等的子类;步骤3,根据用户输入的划分指令选择不同的划分策略,其中,所述划分策略为基于随机划分的平衡子集构造策略或基于层次划分的平衡子集构造策略的任一种;步骤4,根据所述划分策略、全部所述子类和所述原始少类集合,构造所述不平衡数据集对应的V个平衡子集并进行集成学习,得到所述目标软件的缺陷类别。
[0009]根据本专利技术实施例的一种具体实现方式,V 的计算公式为,其中,n
N
和n
P
分别表示所述原始多类集合和所述原始少类集合的样本数量。
[0010]根据本专利技术实施例的一种具体实现方式,当所述划分策略为基于随机划分的平衡子集构造策略时,所述步骤4具体包括:分别将每个所述子类与所述原始少类集合组合形成一个平衡子集,得到V个平衡子集。
[0011]根据本专利技术实施例的一种具体实现方式,每个子集中包含数量相同的多类样本与少类样本。
[0012]根据本专利技术实施例的一种具体实现方式,当所述划分策略为基于层次划分的平衡子集构造策略时,所述步骤4具体包括:步骤4.1,利用k

means聚类方法将多类数据聚成k个类簇;步骤4.2,对每个所述类簇进行分层抽样,使得抽样后构成的每个子类的样本数量与所述原始少类集合的样本数量相同;步骤4.3,分别将每个所述子类与所述原始少类集合组合形成一个平衡子集,得到V个平衡子集。步骤4.4,利用SVM等分类模型对每个平衡子集的数据进行预测,结果为1则为有缺陷,0则为无缺陷,并将每个子集上的预测结果利用投票机制得到最终的缺陷类别。
[0013]根据本专利技术实施例的一种具体实现方式,所述k的取值范围为3至8。
[0014]根据本专利技术实施例的一种具体实现方式,所述步骤4.2具体包括:根据每个所述类簇中样本数量的比例,分别从每个所述类簇中抽出多个样本,形成V个子类。
[0015]第二方面,本专利技术实施例提供了一种基于平衡子集的软件缺陷预测系统,包括:输入模块,用于获取目标软件运行过程产生的不平衡数据集,其中,所述不平衡数据集包括原始多类集合和原始少类集合;划分模块,用于将原始多类集合X
N
随机划分为V个样本数相等的子类;选择模块,用于根据用户输入的划分指令选择不同的划分策略,其中,所述划分策略为基于随机划分的平衡子集构造策略或基于层次划分的平衡子集构造策略的任一种;构造模块,用于根据所述划分策略、全部所述子类和所述原始少类集合,构造所述不平衡数据集对应的平衡子集并进行集成学习,得到所述目标软件的缺陷类别。
[0016]第三方面,本专利技术实施例还提供了一种电子设备,该电子设备包括:至少一个处理器;以及,与该至少一个处理器通信连接的存储器;其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述第一方面或第一方面的任一实现方式中的基于平衡子集的软件缺陷预测方法。
[0017]第四方面,本专利技术实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的基于平衡子集的软件缺陷预测方法。
[0018]第五方面,本专利技术实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述第一方面或第一方面的任一实现方式中的基于平衡子集的软件缺陷预测方法。
[0019]本专利技术实施例中的基于平衡子集的软件缺陷预测方法,包括:步骤1,获取目标软件运行过程产生的不平衡数据集,其中,所述不平衡数据集包括原始多类集合和原始少类集合;步骤2,将原始多类集合X
N
随机划分为V个样本数相等的子类;步骤3,根据用户输入的划分指令选择不同的划分策略,其中,所述划分策略为基于随机划分的平衡子集构造策略或基于层次划分的平衡子集构造策略的任一种;步骤4,根据所述划分策略、全部所述子类和所述原始少类集合,构造所述不平衡数据集对应的V个平衡子集并进行集成学习,得到所述目标软件的缺陷类别。
[0020]本专利技术实施例的有益效果为:通过本专利技术的方案,不仅保留了所有原始样本,同时没有引入新样本,消除数据不平衡带来的性能下降问题,进而提升软件缺陷预测的精准度。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0022]图1为本专利技术实施例提供的一种基于平衡子集的软件缺陷预测方法的流程示意图;图2为本专利技术实施例提供的另一种基于平衡子集的数据重采样方法的流程示意图;图3为本专利技术实施例提供的一种基于随机划分的平衡子集构造流程示意图;图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于平衡子集的软件缺陷预测方法,其特征在于,包括:步骤1,获取目标软件运行过程产生的不平衡数据集,其中,所述不平衡数据集包括原始多类集合和原始少类集合;步骤2,将原始多类集合X
N
随机划分为V个样本数相等的子类;步骤3,根据用户输入的划分指令选择不同的划分策略,其中,所述划分策略为基于随机划分的平衡子集构造策略或基于层次划分的平衡子集构造策略的任一种;步骤4,根据所述划分策略、全部所述子类和所述原始少类集合,构造所述不平衡数据集对应的V个平衡子集并进行集成学习,得到所述目标软件的缺陷类别。2.根据权利要求1所述的方法,其特征在于,V 的计算公式为,其中,n
N
和n
P
分别表示所述原始多类集合和所述原始少类集合的样本数量。3.根据权利要求1所述的方法,其特征在于,当所述划分策略为基于随机划分的平衡子集构造策略时,所述步骤4具体包括:分别将每个所述子类与所述原始少类集合组合形成一个平衡子集,得到V个平衡子集。4.根据权利要求3所述的方法,其特征在于,每个子集中包含数量相同的多类样本与少类样本。5.根据权利要求1所述的方法,其特征在于,当所述划分策略为基于层次划分的平衡子集构造策略时,所述步骤4具体包括:步骤4.1,利用k

means聚类方法将多类数据聚成k个类簇;步骤4.2,对每个所述类簇进行分层抽样,使得抽样后构成的每个子类的样本数量与所述原始少类集合的样本数量相同;步骤4.3,分别将每个所述子类与所述原始少类集合组合形成一个平衡子集,得到V个平衡子集;步骤4.4,利用SVM分类模型对每个平衡子集...

【专利技术属性】
技术研发人员:张新玉余绍黔李晓翠史庆宇
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1