A feature selection method based on symmetric uncertainty and information interaction gain is applied to bioinformatics data analysis and belongs to the field of biological data analysis. The organism itself is a complex system. The molecules in organisms are interrelated and interact, and they jointly react to the essence of life phenomena. For the comprehensive evaluation feature, besides the need to consider the correlation between the feature and the class label, the complementarity between the features can not be ignored. The invention uses symmetric uncertainty and information interaction gain to measure the correlation between features and class marks and the complementarity between features and features, and combines the weights of the two characters to calculate the features. At the same time, the feature backward iterative deleting technique is used to remove the lower weight of the weight, and the interference of the noise feature to the calculation of the feature weight is reduced. The core idea of the present invention is to explore the complex interaction between the molecules in the organism and to find the biomarkers related to the disease by analyzing the potential relationship between the characteristics of the biological information data.
【技术实现步骤摘要】
基于对称不确定性和信息交互增益的特征选择方法
本专利技术属于生物数据分析
,是一种综合考虑特征与类标之间关联性以及特征与特征之间互补性的特征选择方法。
技术介绍
生物大数据中存在大量未知的重要信息,如何运用数据挖掘技术从海量的生物信息数据提取有用的知识,对于了解复杂的生命活动过程,促进新药物的研发和疾病诊断方法的发现有着重大意义。生物信息数据通常具有较高的维度,微阵列技术的进步已经产生了涉及数千特征的基因表达数据,这给传统的数据分析技术带来了挑战,特征选择算法作为一种经典的数据降维技术,能够从高维数据中挖掘出与所研究问题真正相关的特征。生物信息数据的另外一个特点是数据中的特征之间往往存在着复杂的关联关系,如冗余关系、互补关系等,特征之间的互补性尤其不容忽视。生物体本身就是一个复杂的系统,生物体内不同分子间相互关联、相互作用,共同决定生命现象的本质。这就要求特征选择算法在选择特征的时候,既要考虑特征与类标之间的关联性,又要考察特征与特征之间的互补性。对于现有的大部分特征选择算法,尽管它们采用不同的特征评价准则,且表现形式也千差万别,但它们都遵循着共同的选择框架 ...
【技术保护点】
一种基于对称不确定性和信息交互增益的特征选择方法,其特征在于,步骤如下:(1)衡量特征与类标之间的关联性衡量特征与类标之间关联性的度量标准有很多,如互信息;由于互信息的取值易于倾向具有多值的变量,对称不确定性改善了互信息的缺点,实际上为互信息的归一化表示,特征f与类标C的对称不确定性为:
【技术特征摘要】
1.一种基于对称不确定性和信息交互增益的特征选择方法,其特征在于,步骤如下:(1)衡量特征与类标之间的关联性衡量特征与类标之间关联性的度量标准有很多,如互信息;由于互信息的取值易于倾向具有多值的变量,对称不确定性改善了互信息的缺点,实际上为互信息的归一化表示,特征f与类标C的对称不确定性为:式中MI(f;C)表示的是特征f和类标C的互信息,H(x)表示变量x的信息熵;对称不确定性的值域为[0,1],取值越大代表特征与类标的关联性越大;(2)衡量特征与特征之间的互补性信息交互增益是互信息的概念在更高维度上的进一步推广,用于刻画三个变量之间的相互依赖程度,可用于筛选具有互补性的特征;特征fi、fj以及类标C之间的信息交互增益定义如下:IG(fi;fj;C)=MI(fi,fj;C)-MI(fi;C)-MI(fj;C)(2)与互信息不同,信息交互增益的取值可正可负也可以为零;如果IG(fi;fj;C)>0即MI(fi,fj;C)>MI(fi;C)+MI(fj;C),表明将fi和fj联合所提供的信息量多于他们单独所能够提供的信息量之和,换言之,fi和fj具有互补性;如果IG(fi;fj;C)<0即MI(fi,fj;C)<MI(fi;C)+MI(fj;C),说明将fi和fj联合所提供的信息量小于他们单独所能够提供的信息量之和,即fi和fj所提供的信息量有冗余的部分;如果IG(fi;fj;C)=0即MI(fi,fj;C)=MI(fi;C)+MI(fj;C),说明对于fi(fj)来说,fj(fi)的加入并不能使fi(fj)与C的关联性得到改善,即二者相互独立;信息交互增益是由联合互信息与互信息计算得到,因此也易倾向于选择具有多值的变量,所以需要对其进行归一化处理,特征fi,fj与类标C归一化的信息交互增益定义如下:当0≤NIG(fi;fj...
【专利技术属性】
技术研发人员:林晓惠,任卫杰,苏本哲,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。