System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于最大相关最小冗余的交互特征选择方法技术_技高网

一种基于最大相关最小冗余的交互特征选择方法技术

技术编号:40587216 阅读:5 留言:0更新日期:2024-03-12 21:46
本发明专利技术公开了一种基于最大相关最小冗余的交互特征选择方法IFSMRMR,涉及数据挖掘领域。本发明专利技术基于归一化互信息衡量特征与类标签之间的相关性,基于条件互信息衡量特征与特征之间的冗余度,基于Copula熵衡量候选特征与已选特征子集之间的交互作用。该方法从三方面衡量候选特征,有效地选择特征子集,提升分类、聚类性能。该方法应用于基因微阵列数据,在八个公共基准数据集上与现有的六种特征选择方法进行了比较,实验结果表明,该方法选择出的特征子集具有更好的分类性能和聚类性能,对后续疾病研究具有重要意义。

【技术实现步骤摘要】

本专利技术属于数据挖掘领域,具体涉及一种基于最大相关最小冗余的交互特征选择方法


技术介绍

1、当今时代的信息化迅猛发展,海量高维数据在生物信息学和数据挖掘等多个领域无处不在。数据的增长对如何针对数据进行有效且高效地挖掘有用信息提出了要求。数据挖掘指的是站在不同的角度从这些海量数据中提取出有价值的信息进行分析和理解的过程。特征选择方法旨在从原始特征集合中选择部分具有较高预测精度的特征,形成最优特征子集,通常用于机器学习、数据挖掘和生物信息学等领域。在生物信息学中,通常在训练分类器之前进行特征选择,这一数据处理过程也被称为基因选择。在保证预测精度的前提下尽可能少地选择特征,通过减少数据维度来提高机器学习地性能。理想中的特征选择方法通过删除不相关特征以及冗余特征来减少数据维度,避免原特征集潜在信息的丢失,从而提升预测精度并降低计算复杂度进行有效分类。

2、根据评估测度,可以将特征选择方法分为两类,分别是依赖于分类器的封装法、嵌入式以及不依赖于分类器的过滤法。封装法是一种以特定学习器的性能为导向的特征选择方法。它将学习器的预测性能作为评价特征子集好坏的标准,通过搜索算法来找到最优化的特征组合。然而,封装法计算成本高,特别是在特征数量众多的情况下。并且它依赖于特定的学习器,缺乏通用性。嵌入式方法在模型的训练过程中进行特征选择。该方法利用学习算法自身的特性来评估特征的重要性。与封装法相比,它在效率上更有优势,因为特征选择和模型训练同时进行,减少了额外的特征选择步骤。但是,由于它们与学习算法密切相关,因此未被广泛应用。过滤法在选择特征时不考虑模型,根据数据的固有属性评估特征的重要性。此外,无需很多假设即可选择通用的特征。过滤式方法当中许多是基于信息理论的,很多信息测度广泛用于特征选择。

3、然而,相关方法虽然可以通过设计不同测度去很好的度量特征与标签之间的相关性,但往往不能在兼顾特征之间冗余度最小化或新分类信息最大化的前提下,同时做到很好地度量特征与特征之间的交互作用。在生物数据当中,特征指代基因,复杂疾病的形成原因或疾病类型的区分等研究问题往往由多个或多种基因导致,这些基因之间的关系复杂而又紧密,往往彼此之间可能存在相互促进或相互抑制等关系。因此,在特征选择的过程当中,考虑特征之间的交互作用是非常有必要且有研究意义的,通过特征选择可以降低生物数据的维度,进而得到的特征子集用于后续分析与研究。


技术实现思路

1、本专利技术针对现有技术的不足,提出一种基于最大相关最小冗余的交互特征选择方法ifsmrmr。

2、本专利技术包括以下步骤:

3、步骤1:给定基因表达数据的特征集合、细胞类标签和指定选择的特征数,初始化已选特征子集为空集。

4、步骤2:计算特征与类标签的相关性,即计算所有特征集合中的特征和类标签的归一化互信息值。

5、步骤3:给出最大相关最小冗余的交互特征选择方法的目标函数:

6、

7、其中,为第个候选特征,为已选特征,为已选特征子集,为类标签。是特征与类标签之间的相关性,为监督相似性度量,是候选特征与已选特征子集之间的交互作用。

8、步骤4:判断是否正在选择第一个特征,如果是,则选择最大值对应的特征放入已选特征子集中,并从特征集合中删除该特征;如果不是,则对所有特征集合中所有的特征使用最大相关最小冗余的交互特征选择方法的目标函数进行评价;特征集合中的每个候选特征都会计算得到自己对应的值,选择最高的特征,将其放入已选特征子集中,并从特征集合中删除该特征。

9、步骤5:如果特征个数达到指定选择的特征数,则停止,输出已选特征子集;否则循环步骤4。

本文档来自技高网...

【技术保护点】

1.一种最大相关最小冗余的交互特征选择方法IFSMRMR,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种最大相关最小冗余的交互特征选择方法IFSMRMR,其特征在于,步骤2中计算所有特征集合中的特征和类标签的归一化互信息值的具体计算公式为如下;

3.根据权利要求1所述的一种最大相关最小冗余的交互特征选择方法IFSMRMR,其特征在于,步骤3中监督相似性度量具体计算公式为:

4.根据权利要求1所述的一种最大相关最小冗余的交互特征选择方法IFSMRMR,其特征在于,步骤3中候选特征与已选特征子集之间的交互作用具体计算公式为:

【技术特征摘要】

1.一种最大相关最小冗余的交互特征选择方法ifsmrmr,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种最大相关最小冗余的交互特征选择方法ifsmrmr,其特征在于,步骤2中计算所有特征集合中的特征和类标签的归一化互信息值的具体计算公式为如下;

3....

【专利技术属性】
技术研发人员:尚军亮钟琦孙渊任倩倩李凤刘金星
申请(专利权)人:曲阜师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1