一种基于多模型选择的软件缺陷预测方法、设备及存储介质技术

技术编号:33634724 阅读:25 留言:0更新日期:2022-06-02 01:45
本发明专利技术涉及一种基于多模型选择的软件缺陷预测方法、设备及存储介质。本发明专利技术首先使用增量学习的方式逐个训练得到随机森林模型M0。然后,使用ADWIN概念漂移检测机制检测出样本均值的动态性,利用数据收集机制得到数据块D1、D2。再次,使用SMOTE算法平衡D1和D2中的类别分布,分别得到数据块D1

【技术实现步骤摘要】
一种基于多模型选择的软件缺陷预测方法、设备及存储介质


[0001]本专利技术涉及一种基于多模型选择的软件缺陷预测方法、设备及存储介质。

技术介绍

[0002]随着大数据、云计算、并行计算等技术的飞速发展,相应的应用场景也日趋丰富,例如交通运输、商业、医疗卫生等。同时,高新技术的发展也加快了各种软件的出现以及开发。在软件开发过程中,需要严格按照用户需求,否则就软件开发进程就容易出错,这种影响软件或者程序正常进行的问题被称为软件缺陷。软件缺陷会严重影响软件的开发,若不及时检测并纠正,软件缺陷会进一步地积累或者传递,从而影响软件的可靠性和稳定性。因此,对软件缺陷的预测是一件十分重要的任务,具有重大的研究与实用价值。
[0003]软件缺陷预测任务即及时有效地识别出可能存在缺陷的软件模块,以便进行缺陷纠正,保证软件开发的正确性。软件模块数据在软件开发的过程中实时产生,并且其数据分布会随着软件开发的条件等因素会不断变化。因此,可将软件模块数据看作流数据,其数据分布的动态性被称为概念漂移。软件模块数据又被称为软件模块流数据,从而可采用流数据分类的方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多模型选择的软件缺陷预测方法,其特征在于:包括以下步骤:步骤1)使用第一数据收集机制收集新到达的软件模块流数据,增量训练随机森林模型M0;同时,使用新数据更新混淆矩阵中的统计量以及样本均值的统计量;步骤2)将当前时刻更新得到的样本均值用于概念漂移检测机制中,得到小样本平衡数据块D1和D2;步骤3)基于SMOTE算法,对获取的数据块D1和D2中进行过采样,分别得到类别分布平衡的数据块D1

和D2

;步骤4)在获得的数据块D1,D2,D1

和D2

上,分别建立随机森林分类模型M1,M2,M3和M4;步骤5)计算训练得到的流数据分类模型M0,M1,M2,M3和M4对最新软件模块流数据的G

mean性能值,基于多模型选择得到软件缺陷预测模型M;步骤6)使用软件缺陷预测模型M对软件缺陷数据的类别进行预测。2.权利要求1所述的一种基于多模型选择的软件缺陷预测方法,其特征在于:步骤2)中使用概念漂移检测机制ADMIN检测当前数据中是否存在概念漂移。3.权利要求2所述的一种基于多模型选择的软件缺陷预测方法,其特征在于:所述的概念漂移检测机制ADMIN包含:警告水平和漂移水平,基于警告水平和漂移水平形成数据块D1和数据块D2。4.权利要求3所述的一种基于多模型选择的软件缺陷预测方法,其特征在于:ADWIN通过检测当前样本均值的变化来识别软件模块流数据的稳定性;若达到警告水平,则第一数据收集机制不再收集软件模块流数据,形成数据块D1;并则创建第二数据收集机制,用于收集从警告水平之...

【专利技术属性】
技术研发人员:邵羽詹士潇曾磊匡立中张帅
申请(专利权)人:杭州趣链科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1