一种基于深度迁移的软件缺陷预测方法技术

技术编号：21952151 阅读：61 留言：0更新日期：2019-08-24 17:36

本发明专利技术公开了一种基于深度迁移的软件缺陷预测方法，包括：(1)采用可视化方法将源项目和目标项目的源代码文件转化为图像文件；(2)构建深度迁移网络，其中，所述深度迁移网络包含提取单元和软件缺陷预测单元，并在特征提取单元采用自注意力机制；(3)根据采用自注意力机制提取的训练样本特征和测试样本特征之间的最大均值差异，和深度迁移网络的预测输出与样本的真值标签自检的交叉熵构建损失函数，并以损失函数收敛为目标，对深度迁移网络进行训练，以获得软件缺陷预测模型；(4)应用时，采用可视化方法将待检测源代码文件转化为图像，并将图像输入至软件缺陷预测模型，经计算，输出待检测源代码文件的缺陷预测结果。

A Software Defect Prediction Method Based on Deep Migration

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度迁移的软件缺陷预测方法
本专利技术属于软件缺陷预测领域，具体涉及一种基于深度迁移的软件缺陷预测方法。
技术介绍
软件缺陷预测可分为项目内缺陷预测和跨项目缺陷预测。项目内缺陷预测需要大量该项目内已知是否有缺陷的样本，如文件、类和函数等，将其作为训练集，结合机器学习的方法生成分类器后对目标样本进行预测。跨项目缺陷预测则能够根据其他相关项目的样本对目标项目进行缺陷预测。现实开发过程中由于目标项目太新或者获取标签的成本过高，导致目标项目内训练样本过少，常常需要进行跨项目缺陷预测。目前缺陷预测方法主要有基于传统机器学习和基于深度学习这两种，前者需要利用特征工程对源代码文件进行特征提取后进一步采用机器学习分类模型进行预测，后者直接将源代码文件作为深度学习模型的输入从而端到端地输出缺陷预测结果。其中由于深度学习在许多领域的出色表现，如何利用深度学习进行软件缺陷预测成为了当前的研究热点。利用深度学习进行缺陷预测的难点在于：一是如何将缺陷文件输入到深度模型中；二是由于目标项目与源项目开发过程的不同，两者样本分布往往存在差异，直接影响预测效果，怎样减少这方面的障碍。为了将缺陷样本输入到深度模型中，目前最主要的方法是利用语法分析树(AST)对源代码文件进行关键词提取，将代码文件转换为语法序列输入到深度模型中。Wang等人利用深度置信网络对语法序列进行特征提取，然后构建基于机器学习的分类器进行分类从而进行缺陷预测；相似地，Li等人利用基于卷积神经网络的深度模型对语法序列提取特征后与原传统的人工提取特征一起作为机器学习模型的输入进行缺陷预测；Dam等人利用长短记忆网络作...

【技术保护点】
1.一种基于深度迁移的软件缺陷预测方法，包括以下步骤：(1)采用可视化方法将源项目和目标项目的源代码文件转化为图像文件，转化时，针对源项目的源代码文件，采用三原色排列组合策略对图像进行扩充，形成训练集；将目标项目的源代码文件转化为图像文件作为测试集；(2)构建深度迁移网络，其中，所述深度迁移网络包含用于提取特征的特征提取单元和用于软件缺陷预测的软件缺陷预测单元，并在特征提取单元采用自注意力机制；(3)根据采用自注意力机制提取的训练样本特征和测试样本特征之间的最大均值差异，和深度迁移网络的预测输出与样本的真值标签自检的交叉熵构建损失函数，并以损失函数收敛为目标，采用训练集和测试集对深度迁移网络进行训练，当满足训练截止条件时，网络参数确定，将获得软件缺陷预测模型；(4)应用时，采用可视化方法将待检测源代码文件转化为图像，并将图像输入至软件缺陷预测模型，经计算，输出待检测源代码文件的缺陷预测结果。

【技术特征摘要】
1.一种基于深度迁移的软件缺陷预测方法，包括以下步骤：(1)采用可视化方法将源项目和目标项目的源代码文件转化为图像文件，转化时，针对源项目的源代码文件，采用三原色排列组合策略对图像进行扩充，形成训练集；将目标项目的源代码文件转化为图像文件作为测试集；(2)构建深度迁移网络，其中，所述深度迁移网络包含用于提取特征的特征提取单元和用于软件缺陷预测的软件缺陷预测单元，并在特征提取单元采用自注意力机制；(3)根据采用自注意力机制提取的训练样本特征和测试样本特征之间的最大均值差异，和深度迁移网络的预测输出与样本的真值标签自检的交叉熵构建损失函数，并以损失函数收敛为目标，采用训练集和测试集对深度迁移网络进行训练，当满足训练截止条件时，网络参数确定，将获得软件缺陷预测模型；(4)应用时，采用可视化方法将待检测源代码文件转化为图像，并将图像输入至软件缺陷预测模型，经计算，输出待检测源代码文件的缺陷预测结果。2.如权利要求1所述的基于深度迁移的软件缺陷预测方法，其特征在于，采用可视化方法将源代码文件转化为图像文件的过程包括：首先，将源代码转化为二进制表达序列，并将二进制表达序列转换为八进制向量，再将八进制向量转化为0～255之间的文件向量file(x0,x1,…,xn),(0≤xi≤255,0≤i≤n)，其中，n为索引号，取决于源代码文件的大小；然后，将R、G、B三原色按照不同的排列顺序形成RGB、RBG、GBR、GRB、BGR和BRG六种排列方式，命名为三原色排列组合策略；最后，按照三原色排列组合策略中至少一种排列方式将文件向量转化为预测尺寸的图像。3.如权利要求2所述的基于深度迁移的软件缺陷预测方法，其特征在于，针对源项目的源代码文件，采用三原色排列组合策略中六种排列方式将文件向量转化为预测尺寸的图像，以实现对图像的扩充。4.如权利要求2所述的基于深度迁移的软件缺陷预测方法，其特征在于，针对目标项目的源代码文件和待检测源代码文件，采用三原色排列组合策略中任意一种排列方式将文件向量转化为预测尺寸的图像。5.如权利要求2～4任一项所述的基于深度迁移的软件缺陷预测方法，其特征在于，预测尺寸设定规则为：其中，生成图像长度取决于根据源代码文件大小。6.如权利要求1所述的基于深度迁移的软件缺陷预测方法，其特征在于，所述深度迁移网络包括：特征提取单元，其包括依次连接...

【专利技术属性】
技术研发人员：陈晋音，胡可科，刘毅，宣琦，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人