一种基于谱聚类的软件缺陷特征选择方法技术

技术编号:24682920 阅读:41 留言:0更新日期:2020-06-27 07:51
本发明专利技术公开了一种基于谱聚类的软件缺陷特征选择方法,包括如下步骤:导入待进行特征选择的软件缺陷数据集,并提取软件缺陷预测特征集;剔除软件缺陷预测特征集中的无关特征;建立特征间相关性矩阵;基于谱聚类对特征集进行聚类分析,得到若干组高内聚低耦合的特征簇;计算出特征簇中每个特征的质量系数,依照特征质量系数对特征进行排序,将排序结果作为特征前项选择的搜索顺序,并选择机器学习性能最佳的特征子集作为软件缺陷特征集。该方法解决了主流特征选择方法无法兼顾无关特征和冗余特征排除、特征选择算法性能随特征数量增加而迅速下降、选择出的特征子集通用性不强、用于预测效果不好等缺陷。

A method of software defect feature selection based on spectrum clustering

【技术实现步骤摘要】
一种基于谱聚类的软件缺陷特征选择方法
本专利技术涉及软件缺陷预测及软件可靠性
,特别涉及一种基于谱聚类的软件缺陷特征选择方法。
技术介绍
21世纪以来,软件在社会生活中的地位日益提升,无处不在,已经不仅仅局限于工程、科研、经济等专业领域,更是走进了千家百户,成为了人们生活中举足轻重的工具。随着软件系统规模日益增加,复杂程度呈几何式提升,软件的缺陷也与日俱增,而软件缺陷导致的影响也辐射到了人民生活的方方面面。软件缺陷数据是软件可靠性相关研究和应用的基础。长期以来,软件可靠性领域使用的缺陷数据主要来自于有限的软件测试数据和使用中故障的分析数据。虽然这类缺陷数据相对完整,但是缺陷数据量太少、覆盖面不足、涉及软件类型有限,已经成为了软件可靠性研究和应用的瓶颈。互联网的出现,使我们进入了大数据的时代,目前最大的开源项目网站GitHub.com已经拥有了数千万个开源软件项目,GitHub的发展使我们利用互联网获得海量的软件缺陷数据成为了可能。但是GitHub并非为软件缺陷采集而设立,其设立的主要目的还是为了实现开源软件的协同开发和共享,因此直本文档来自技高网...

【技术保护点】
1.一种基于谱聚类的软件缺陷特征选择方法,其特征在于,包括如下步骤:/n1)导入待进行特征选择的软件缺陷数据集,并从该数据集中提取所有特征作为软件缺陷预测特征集;/n2)针对软件缺陷预测特征集中的每一个特征建立单变量逻辑回归模型,分析该特征与软件缺陷分布的相关性,并将无关特征从特征集中剔除;/n3)对步骤2)删除无关特征后特征集中的特征两两计算Pearson相关系数,并根据Pearson相关系数建立特征间相关性矩阵;/n4)根据得到的特征间的相关性矩阵W,基于谱聚类对特征集进行聚类分析,得到若干组高内聚低耦合的特征簇;/n5)计算出特征簇中每个特征的质量系数,依照特征质量系数对特征进行排序,将...

【技术特征摘要】
1.一种基于谱聚类的软件缺陷特征选择方法,其特征在于,包括如下步骤:
1)导入待进行特征选择的软件缺陷数据集,并从该数据集中提取所有特征作为软件缺陷预测特征集;
2)针对软件缺陷预测特征集中的每一个特征建立单变量逻辑回归模型,分析该特征与软件缺陷分布的相关性,并将无关特征从特征集中剔除;
3)对步骤2)删除无关特征后特征集中的特征两两计算Pearson相关系数,并根据Pearson相关系数建立特征间相关性矩阵;
4)根据得到的特征间的相关性矩阵W,基于谱聚类对特征集进行聚类分析,得到若干组高内聚低耦合的特征簇;
5)计算出特征簇中每个特征的质量系数,依照特征质量系数对特征进行排序,将排序结果作为特征前项选择的搜索顺序,并选择机器学习性能最佳的特征子集作为软件缺陷特征集。


2.根据权利要求1所述的基于谱聚类的软件缺陷特征选择方法,其特征在于,所述的步骤1)中的软件缺陷数据集中的数据均设有缺陷标记。


3.根据权利要求2所述的基于谱聚类的软件缺陷特征选择方法,其特征在于,所述的步骤2)中无关特征剔除的方法为:对每个特征进行单变量逻辑回归分析,计算每个特征比值比OR,将OR值属于特定区间的特征从特征集中删除。


4.根据权利要求3所述的基于谱聚类的软件缺陷特征选择方法,其特征在于,所述的OR值特定区间为大于0.67且小于1.5。


5.根据权利要求1所述的基于谱聚类的软件缺陷特征选择方法,其特征在于,所述的步骤3)中特征间相关性矩阵W为对称矩阵,对角线上的元素均为1,相关性矩阵中的第i行第j列的元素Wij是第i个特征和第j个特征的Pearson相关系数。


6.根据权利要求1所述的基于谱聚类的软件缺陷特征选择方法,其特征在于,所述的步骤4)中特征簇的形成方法为:
4-1)根据特征间相关性矩阵W计算度矩阵D;
4-2)根据相关性矩阵W和度矩阵D计算未标准化的拉普拉...

【专利技术属性】
技术研发人员:严亮许嘉熙艾骏
申请(专利权)人:北京高质系统科技有限公司北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1