一种软件缺陷预测方法及预测系统技术方案

技术编号:15895149 阅读:133 留言:0更新日期:2017-07-28 19:44
本发明专利技术公开了一种软件缺陷预测方法,该方法将有类别标记和无类别标记的样本共同处理,在拉普拉斯特征映射(LE)中使用半监督学习,改进LE方法,同时,为了避免将不同类的样本映射到较小的低维邻域中,尤其是将有缺陷样本映射到无缺陷样本邻域中,在LE算法计算样本点距离时引入代价敏感信息,以此来提高LE的映射精度,通过该方法可以有效改善特征提取的鉴别性。本发明专利技术还提出一种软件缺陷预测系统,将本发明专利技术应用在NASA数据库上,经实验验证所提方法的有效性,并且和其他对比方法相比,在分类性能上有一定的提升。

Software defect prediction method and prediction system

The invention discloses a software defect prediction method, this method will have categories marked and no labeled samples, Laplasse in the feature map (LE) used in semi supervised learning, improved LE method, at the same time, in order to avoid the different types of samples are mapped into a low dimensional neighborhood is small, especially the defective samples are mapped into the defect free samples in the neighborhood, the introduction of price sensitive information to calculate the sample point distance in LE algorithm, in order to improve the accuracy of LE mapping, this method can effectively improve the extraction of feature identification. The invention also provides a software defect prediction system, the invention is applied to the NASA database, the validity of the proposed method is verified by experiments, and compared with other method of comparison, there is some improvement in classification performance.

【技术实现步骤摘要】
一种软件缺陷预测方法及预测系统
本专利技术涉及一种软件缺陷预测方法及预测系统,属于软件工程领域。
技术介绍
软件缺陷预测包括数据预处理、特征提取、训练预测模型、识别四个环节。其中特征提取是软件缺陷预测中最基本的问题之一。对于软件缺陷预测而言,提取有效的特征是完成识别的首要任务。现有的特征提取方法可分为传统维数简约方法和流行学习维数简约方法。其中,传统维数简约方法:包括主成分分析(PCA)、多维尺度分析(MDS)。流行学习维数简约方法:包括等距映射法(ISOMAP)、拉普拉斯特征映射(LE)、局部保留投影(LPP)等。(1)主成分分析(PCA):其核心思想是通过把原始样本数据线性映射到低维空间中,使得投影后的数据在新的低维空间中具有各特征线性无关的特性,通过投影后,高维的数据可以映射为低维的数据,从而实现数据简约。即最终要求满足下式的v:Stv=λv(1)其中St代表总体散度矩阵,λ为v对应的特征值。(2)多维尺度分析(MDS):通过分析相似数据来挖掘数据中的隐藏结构信息,MDS算法的目的是在已知原始样本间距离的情况下,重构低维空间的样本,使得在低维空间的样本的距离和原始样本在高维空间本文档来自技高网...
一种软件缺陷预测方法及预测系统

【技术保护点】
一种软件缺陷预测方法,其特征在于,包括以下步骤:步骤一、将训练样本集进行降维处理,获得投影到低维空间的训练样本数据集,具体包括:(1)将样本集中的样本分为有标记样本和无标记样本,其中对有标记样本进一步划分为有缺陷样本和无缺陷样本,然后分别构建三类邻接图,具体是:对于第一类邻接图,将样本集中的所有样本作为该邻接图的结点,如果有两个结点属于同类样本且近邻则建立连接边;对于第二类邻接图,将样本集中的所有样本作为该邻接图的结点,如果有两个结点属于异类样本且近邻则建立连接边;对于第三类邻接图,将样本集中的所有样本作为该邻接图的结点,如果有两个结点属于无标记样本且近邻则建立连接边;(2)对于每种邻接图,根...

【技术特征摘要】
1.一种软件缺陷预测方法,其特征在于,包括以下步骤:步骤一、将训练样本集进行降维处理,获得投影到低维空间的训练样本数据集,具体包括:(1)将样本集中的样本分为有标记样本和无标记样本,其中对有标记样本进一步划分为有缺陷样本和无缺陷样本,然后分别构建三类邻接图,具体是:对于第一类邻接图,将样本集中的所有样本作为该邻接图的结点,如果有两个结点属于同类样本且近邻则建立连接边;对于第二类邻接图,将样本集中的所有样本作为该邻接图的结点,如果有两个结点属于异类样本且近邻则建立连接边;对于第三类邻接图,将样本集中的所有样本作为该邻接图的结点,如果有两个结点属于无标记样本且近邻则建立连接边;(2)对于每种邻接图,根据结点之间的连接情况确定样本点之间的距离权重,其中对于第二类邻接图,在计算样本点距离权重时引入代价敏感信息;(3)采用拉普拉斯特征映射算法的原理,根据步骤(2)确定的样本点之间的距离权重以及映射后的样本点之间的距离建立目标函数,将该目标函数转换成广义特征值方程,求解该方程获得特征向量矩阵,进一步获得投影到低维空间的样本集;步骤二、对待测试样本集根据步骤一的流程进行降维处理,得到降维后的测试样本数据集;步骤三、通过朴素贝叶斯分类器,根据步骤一获得的训练样本数据集和步骤二获得的测试样本数据集,训练预测模型并预测测试样本数据集的分类情况,得出软件缺陷预测结果。2.根据权利要求1所述的软件缺陷预测方法,其特征在于,在步骤一的分步骤(1)中:训练样本集X={xi,l},其中xi表示训练样本,xi∈Rd,d是训练样本的维数,i=1,2,...n,n是样本的数量,l是样本的类别标签,l∈{0,-1,1},其中-1表示无标记样本,0表示无缺陷样本,1表示有缺陷样本;同类样本表示两个结点均是有缺陷样本或均是无缺陷样本,异类样本表示两个结点一个是有缺陷样本一个是无缺陷样本。3.根据权利要求1所述的软件缺陷预测方法,其特征在于,在步骤一的分步骤(2)中确定样本点之间的距离权重具体为:对于第一类邻接图,若结点i,j有边连接,则权重否则Wij=0;t为热核宽度;对于第二类邻接图,若结点i,j有边连接,则权重否则Bij=0;其中Ca,b为代价敏感参数;对于第三类邻接图,若结点i,j有边连接,则权重否则Sij=0。4.根据权利要求3所述的软件缺陷预测方法,其特征在于,步骤一的分步骤(3)具体如下:A、建立目标函数:假设y=[y1,y2,...,yn]是投影到低维空间的样本,则需要解决下面的最大化问题:其中,α表示调节参数,yi、yj均表示映射后的样本点,i=1,2,...n,j=1,2,...n;B、将步骤A中的目标函数转换成广义特征值的求解问题:LBa=λLTa;通过求解该式,求出矩阵A={a1,a2,...,ar},其中,λ表示特征值;LB=DB-B、LT=DT-T;即其中,即DB与DT均是对角矩阵且DB与DT的每个对角元素分别是B与T中的每一行或者每一列之和;B是第二类邻接图构建的权重矩阵,Τ=W+αS,W是第一类邻接图构建的权重矩阵,S是第三类邻接图构建的权重矩阵;C、根据矩阵A求出投影后的样本y,y为矩阵A中的每一行向量组成的矩阵,即,yi是A的第i行...

【专利技术属性】
技术研发人员:史雪静荆晓远岳东
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1