一种基于GitHub的半监督异构软件缺陷预测算法制造技术

技术编号：21606111 阅读：48 留言：0更新日期：2019-07-13 18:25

本发明专利技术公开了一种基于GitHub的半监督异构软件缺陷预测算法，包括以下步骤：首先是数据集收集，建立自己的数据库；对收集到的数据预处理；然后这里异构的数据处理，我们引入增强版的典型关联分析方法，它是由统一度量表示(UMR)和典型关联分析(CCA)组成；最后我们加入了代价敏感的核半监督判别方法，从而实现了基于GitHub的半监督异构软件缺陷预测算法，本发明专利技术的优点在于解决了软件缺陷预测中数据异构的问题以及首次提出了代价敏感的核半监督鉴别分析(CKSDA)技术，利用代价敏感的学习技术，解决不同的错误分类代价，实现了缺陷预测效果。

A Semi-supervised Heterogeneous Software Defect Prediction Algorithm Based on GitHub

全部详细技术资料下载

【技术实现步骤摘要】
一种基于GitHub的半监督异构软件缺陷预测算法
本专利技术涉及软件缺陷预测算法，具体涉及一种基于GitHub的半监督异构软件缺陷预测算法。
技术介绍
软件缺陷预测是当前软件工程数据领域中的一个研究热点。其希望就是能够在项目开发的早期阶段，预先识别出项目内的潜在缺陷程序模块，并且对这类的程序模块分配足够的测试资源来确保可以进行充分的代码审查或者是单元测试，最终达到提高软件产品质量的目的。目前大部分研究工作都集中关注同项目缺陷预测问题，即选择同一项目的部分数据集作为训练集来构建模型，并用剩余未选择的数据作为测试集来获得模型的预测能力。然而在实际的软件开发场景中，需要进行缺陷预测的目标项目可能是一个新启动的项目，并没有足够的历史数据来作为训练集和测试集。由于历史数据的缺少研究者们开始关注跨项目软件缺陷预测的问题，跨项目就是使用其他项目的训练数据来构建预测模型,并对一个全新项目进行缺陷预测。在大部分的情况下，不同项目的度量元取值分布具有显著的差异性，缺陷预测的数据存在类别不平衡问题。在软件测试中，软件缺陷预测是非常重要的，它可以利用历史缺陷数据学习预测模型。当没有足够的历史缺陷数据建立准确的预测模型时，跨公司缺陷预测(Ccdp)和半监督缺陷预测(Ssdp)是两种可行的方法。来自开放源码项目(OSP)托管平台(如GitHub)的现有开放源码未标记数据就足够了，这些数据通常是异构的。目前，对于如何利用开放源码项目(OSP)的大量未标记异构数据进行缺陷预测模型的研究还很少。
技术实现思路
本专利技术的目的在于：针对现有技术存在的缺陷，提出一种基于GitHub的半监督异构软...

【技术保护点】
1.一种基于GitHub的半监督异构软件缺陷预测算法，其特征在于，所述基于GitHub的半监督异构软件缺陷预测算法包括以下步骤：步骤(1)、收集数据建立数据库；步骤(2)、数据预处理，包括数据规范化和数据过滤；步骤(3)、匹配源数据和目标数据，引入统一度量表示(UMR)和典型相关分析方法(CCA)；步骤(4)、半监督判别分析；步骤(5)、核半监督判别分析；步骤(6)、代价敏感核半监督判分析。

【技术特征摘要】
1.一种基于GitHub的半监督异构软件缺陷预测算法，其特征在于，所述基于GitHub的半监督异构软件缺陷预测算法包括以下步骤：步骤(1)、收集数据建立数据库；步骤(2)、数据预处理，包括数据规范化和数据过滤；步骤(3)、匹配源数据和目标数据，引入统一度量表示(UMR)和典型相关分析方法(CCA)；步骤(4)、半监督判别分析；步骤(5)、核半监督判别分析；步骤(6)、代价敏感核半监督判分析。2.根据权利要求1所述的一种基于GitHub的半监督异构软件缺陷预测算法，其特征在于，所述步骤(1)的具体做法是：在GitHub上收集数据，所述收集数据包括项目选择、特征提取和清理数据集，所述项目选择包括选择3个语言标记(Python，Java，C)作为关键字，由“moststar”排序标记，从排序列表的顶部筛选出20个项目，所述特征提取包括使用“Understand”工具，提取代码度量，所述代码度量为文件静态代码度量，使用Scitools获得代码度量标准，所述清理数据集包括采用人工筛选对缺失值和显著误差值进行筛选。3.根据权利要求1所述的一种基于GitHub的半监督异构软件缺陷预测算法，其特征在于，所述步骤(2)中数据预处理使用min-max规范化，给定一个度量x，规范化值x′,计算为:所述数据过滤为knn滤波器过滤跨公司数据的方法，使用数据筛选器代替所有跨公司数据，选择源和目标跨公司项目之间的公共属性，对于目标数据中的每个实例，选择k近邻来度量相似度，使用常见的特性进行过滤，获得与目标数据集相似的源数据集的筛选数据集，这里使用k＝10来表示k-最近的邻居。4.根据权利要求1所述的一种基于GitHub的半监督异构软件缺陷预测算法，其特征在于，在步骤(3)中匹配源数据和目标数据引入统一度量表示(UMR)和典型相关分析方法(CCA)，在UMR的基础上，利用CCA为源和目标项目的数据寻找共同空间，使得预测数据之间的相关性最大化，利用UMR技术来使异构数据能够被比较，设定和是源数据和目标数据，这里是Xs的第i个实例，Ns和Nt是在Xs和Xt的实例数，源公司中的实例表示为目标公司中的实例表示为这里，表示与的第j度量相对应的度量值，ds和dt是源数据和目标数据中的度量数，则UMR定义如下：其中是包含源数据集特定度量的Xs中的数据，是包含目标数据集特定度量的Xt中的数据，0s和0t是源数据与目标数据中的全零矩阵，目的是为了补全维度，并且在源数据中，而在目标数据中，R为实数集，加入基于CCA的学习相关子空间，寻找两个投影方向的Ps，Pt，最大化源与目标公司数据之间的线性相关系数ρ，则CCA的目标函数定义为：其中(·)T是矩阵或向量转置，C...

【专利技术属性】
技术研发人员：荆晓远，孙莹，李娟娟，黄鹤，杨永光，姚永芳，彭志平，
申请(专利权)人：广东石油化工学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人