基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法技术

技术编号:21454811 阅读:28 留言:0更新日期:2019-06-26 05:03
本发明专利技术公开了一种基于文本特征提取和不平衡策略的识别Bug报告严重程度的方法,该方法通过对bug报告数据集进行不平衡及基于遗传算法的文本特征提取操作,生成的分类模型对新提交的bug报告进行分类时没有偏向,拟合趋于平衡,避免了分类时的局限性;经过提取操作,可以实现特征与实例的同时提取,得到规模更小且质量更高的数据集,提高了bug报告严重程度识别的准确率,节省了bug严重程度识别的时间成本和人力成本,提升了工作效率,方便开发者优先处理严重程度更高的bug报告。

【技术实现步骤摘要】
基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法
本专利技术涉及数据处理
,尤其涉及一种基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法。
技术介绍
随着软件应用程序的功能越来越丰富,软件规模越来越大,各软件中的逻辑也变得愈加复杂,因此软件缺陷不可避免的增加。比如,Mozilla平均每天会有128.29个bug报告被提交。随着bug报告数目的增多,人工手动指派bug报告修复变得愈加繁重,同时由于被提交的bug报告的严重程度不同,严重程度越高的bug报告越应该被优先处理。通过对bug报告数据进行分析,发现识别bug报告的严重程度存在两个挑战:首先,bug仓库中的bug报告通常是不平衡的,严重程度高的bug报告只占其中一小部分,而现有的研究工作为了达到整体精度最大化,往往会牺牲识别少数类即严重程度高的bug报告的性能;其次,bug仓库规模大质量低,这是由于每天往bug仓库中提交的bug数目很多,bug报告由自然语言组成,由世界各地的测试人员提交且每个人的自然语言理解和表达方式不同,导致数据噪音太多且质量低,因此影响bug报告的分类性能,因此在研究过程中缺少同本文档来自技高网...

【技术保护点】
1.一种基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法,其特征在于:包括以下步骤:S1:从bug仓库中收集已修复的bug作为原始数据集,对原始数据集进行如下预处理:移除数据集中无效的bug报告,提取保留下来的bug报告的文本信息,使用文本预处理方法将文本信息处理成文本向量矩阵,将bug报告描述信息中的低频词移除,对bug报告进行严重程度标记;S2:采用代价矩阵、随机欠采样、随机过采样、合成少数类过采样的四种不平衡处理策略对原数据集中文本矩阵进行不平衡处理、得到平衡数据集;S3:将遗传算法与特征提取、实例提取以及特征和实例同时提取相结合对数据集进行约简处理,将约简后的数据集矩阵作为...

【技术特征摘要】
1.一种基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法,其特征在于:包括以下步骤:S1:从bug仓库中收集已修复的bug作为原始数据集,对原始数据集进行如下预处理:移除数据集中无效的bug报告,提取保留下来的bug报告的文本信息,使用文本预处理方法将文本信息处理成文本向量矩阵,将bug报告描述信息中的低频词移除,对bug报告进行严重程度标记;S2:采用代价矩阵、随机欠采样、随机过采样、合成少数类过采样的四种不平衡处理策略对原数据集中文本矩阵进行不平衡处理、得到平衡数据集;S3:将遗传算法与特征提取、实例提取以及特征和实例同时提取相结合对数据集进行约简处理,将约简后的数据集矩阵作为最终的训练集;S4:采用朴素贝叶斯、多项式朴素贝叶斯、K近邻和支持向量机四种分类算法对约简后平衡的训练集矩阵进行建模,筛选出预测效果最佳的分类器;S5:对新提交的bug报告进行严重程度的预测。2.根据权利要求1所述的基于文本特征提取和不平衡处理策略的Bug报告严重程度识别方法,其特征还在于:S1中具体采用如下方式:S11:将原始数据集中bug状态为normal和enhancement的bug报告移除;S12:将bug报告状态为major、cr...

【专利技术属性】
技术研发人员:陈荣魏苗苗张佳丽李辉郭世凯唐文君
申请(专利权)人:大连海事大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1