一种基于传统特征和语义特征结合的缺陷预测方法技术

技术编号：30754129 阅读：13 留言：0更新日期：2021-11-10 12:07

本发明专利技术涉及一种基于传统特征和语义特征结合的缺陷预测方法。本发明专利技术首先使用javalang从程序源代码中提取出关键性节点，将节点信息通过CBOW模型进行语义特征的训练，其次对语义特征进行降维以平衡语义特征和传统特征的维度差异，降维后的语义特征再和传统特征线性组合，然后使用smote进行类不平衡的处理，最后构建深度学习模型学习组合特征的关联关系，挖掘对于模型预测更有价值的特征，得到一个用于软件缺陷预测分类的模型。本发明专利技术解决了语义特征和传统特征更有效的结合的问题，利用组合特征更准确的预测出有缺陷的模块，帮助测试经理寻找软件的缺陷，降低软件开发成本。降低软件开发成本。降低软件开发成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于传统特征和语义特征结合的缺陷预测方法

[0001]本专利技术是对同项目跨版本的软件缺陷预测的一种学习方法，旨在使用该技术以后预测缺陷数据集内的缺陷样本，帮助测试人员更有效地定位缺陷和分配测试资源，从而降低软件测试的成本。

技术介绍

[0002]软件缺陷预测在软件测试中起着重要的作用，80％的缺陷往往存在于20％的代码块中，软件缺陷预测技术可以帮助定位到有缺陷的部分，提高软件测试的效率。根据软件缺陷预测的粒度不同可以分为模块级、文件级和变更级缺陷预测。以前的WPDP研究中大多采用的是基于传统度量特征来构建机器学习模型，如代码行(LOC)、基于运算符和操作数的Halstead度量以及面向对象程序的CK度量等。然而这些度量通常无法区分具有不同语义的程序，不能捕获程序的语义信息和度量指标之间的潜在关联，这可能限制软件缺陷预测的性能。
[0003]伴随着深度学习的发展，越来越多的研究利用深度学习技术从源代码中获取语义信息将其作为特征来构建模型。研究表明，深度学习模型可以有效的捕获程序的语义信息，程序语义特征更加注重代码提供的细节信息，缺少传统特征所具备模块全局的信息，可以考虑将两者进行结合以获得多元的特征表达，但是语义特征和传统特征的差异较大，如何更加有效的结合是本专利技术的重点，得到更有助于提高软件缺陷预测性能的结合特征。

技术实现思路

[0004]本专利技术是探究传统特征与语义特征之间更好的结合方式，以提高软件缺陷预测性能。在数据预处理阶段使用词嵌入技术学习语义特征，通过降维减少语义特征的维...

【技术保护点】

【技术特征摘要】
1.一种基于传统特征和语义特征结合的缺陷预测方法，其特征在于包含如下步骤：步骤1)基于源代码提取特征结点；步骤2)特征结点语义训练；步骤3)特征降维；步骤4)特征结合；将降维后的语义特征与传统特征结合；步骤5)类不平衡处理；步骤6)构建训练模型；步骤7)模型训练。2.根据权利要求1所述的基于传统特征和语义特征结合的缺陷预测方法，其特征在于步骤1所述的基于源代码提取特征结点的具体如下：将java源程序解析成抽象语法树，从根结点遍历抽象语法树，从中抽取出三大类的特征结点；如下：1)方法调用和类实例创建结点；表示为方法名或者类名；2)声明结点；包括方法声明结点、类型声明结点、枚举声明结点，用其值表示；3)控制流结点；包括while、try、catch、if、throw、for，用结点类型表示。3.根据权利要求1所述的基于传统特征和语义特征结合的缺陷预测方法，其特征在于步骤2所述的特征结点语义训练的具体如下：构建连续词袋模型，将同一个项目的两个版本通过步骤1抽取特征结点，将低版本的作为训练集，高版本作为测试集；将两个版本的特征结点序列输入到CBOW模型当中训练，该模型会自动的利用特征结点的上下文关系来迭代更新，获得特征结点对应的词向量；CBOW模型训练结束后会得到一个词典，里面保存着特征结点与其对应的词向量的关系；训练集和测试集中的特征结点根据词典进行映射，得到数值样本；由于每个文件中抽取出的特征结点数量不一致，导致映射后的数值样本长度不同，所以给定参数m，将样本长度大于m的部分删去，小于m的部分以0补齐，得到语义特征。4.根据权利要求1所述的基于传统特征和语义特征结合的缺陷预测方法，其特征在于步骤3所述的特征降维的具体如下：通过自动变分编码器对数据进行降维处理；将步骤2得到的语义特征通过VAE进行降维，得到降维后的语义特征。5.根据权利要求1所述的基于传统特征和语义特征结合的缺陷预测方法，其特征在于步骤4所述的特征结合的具体如下：特征结合采用early fusion，在特征角度上进行融合，进行不同特征的链接，即语义特征线性组合传统特征得到组合后的特征。6.根据权利要求1所述的基于传统特征和语义特征结合的缺陷预测方法，其特征在于步骤5所述的类不平衡处理的具体如下：软件缺...

【专利技术属性】
技术研发人员：王兴起，龚森林，魏丹，陈滨，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人