基于信息论的医疗数据集特征选择方法技术

技术编号:22389066 阅读:96 留言:0更新日期:2019-10-29 07:01
本发明专利技术公开了一种基于信息论的医疗数据集特征选择方法,包括以下步骤:根据待分析的医疗数据集构建原始高维数据矩阵和标签列,自定义要选取的特征个数T;求取每个特征的对称不确定性SU值;根据SU对所有特征进行降序排列,将SU值最大的特征加入初始为空的特征子集;针对剩余的每个特征fp,求取其SU值以及其与目前已选的所有特征的多变量对称不确定性MSU值,结合SU值和MSU值构建特征的特征评价函数;利用特征评价函数对特征进行评价,将评价值最高的T‑1个特征加入特征子集;结合分类器和K折交叉验证方法对所选特征子集进行评价。本发明专利技术方法通过最大化特征与标签的相关性,同时最小化特征之间的冗余性进行特征选择,在计算效率,分类准确率和选择的特征子集规模上明显更优。

Feature selection method of medical data set based on information theory

【技术实现步骤摘要】
基于信息论的医疗数据集特征选择方法
本专利技术属于大数据技术与机器学习领域,特别是一种基于信息论的医疗数据集特征选择方法。
技术介绍
在实际应用场景产生的机器学习问题中,都会产生大量复杂的高维数据。大多数数据分析任务的运行时间至少随数据维度的增加呈线性增长,存储、分析高维数据需要消耗大量计算机存储资源,花费很多计算时间。并且很多数据挖掘和机器学习的任务如分类、聚类和回归,只在低维空间取得好效果,如果放置到高维空间会非常困难。所以如何对高维数据进行特征降维,并保持重要信息不丢失是迫在眉睫要解决的问题。特征选择(FeatureSelection,FS)是选择原始特征子集的过程,特征子集通常比原始特征集合小得多。一般特征选择的目标为选择与标签相关(relevant)的特征,并剔除与其他相关特征冗余(redundant)的特征。广义上,根据与机器学习算法之间的联系,特征选择算法分为三类:Filter方法,Wrapper方法和Embedded方法。Filter方法利用某种统计学的指标作为衡量标准,是一种独立于特定机器学习算法的特征选择方法。相反Wrapper方法的衡量标准是基于某个分类器的表现的,所以总的来说Wrapper方法的计算量更大。Embedded方法综合了以上两种方法,将特征选择和学习器的训练在同一个优化过程中完成。现存的基于信息论的特征选择方法属于Filter方法,或多或少存在一些弊端。如大多数基于信息理论的方法只能处理离散型数据,无法处理连续型数据。互信息最大化MIM(MutualInformationMaximization)方法只考虑了每个单独的特征与标签的互信息来给特征打分,忽略了特征之间的冗余关系,使得得到的最优特征子集不准确。最小冗余最大相关性mRMR(minimal-RedundancyMaximal-Relevance)方法虽然综合考虑了特征与标签的相关性和特征之间的冗余性,但是计算量大,算法的时间复杂度关于特征数目呈二次方增长,关于样本大小呈线性增长,并且算法在给特征打分时没有考虑条件冗余(ConditionalRedundancy)。FCBF(FastCorrelationBasedFilter)方法定义了对称不确定性SU(SymmetricalUncertainty)给特征进行打分,但是只考虑了两个特征之间的冗余性,无法衡量多个特征的相互依赖程度。
技术实现思路
本专利技术的目的在于提供一种计算效率高、选取的特征集合规模小、且利用选取的特征分类准确率高的特征选择的方法。实现本专利技术目的的技术解决方案为:基于信息论的医疗数据集特征选择方法,包括以下步骤:步骤1、根据待分析的医疗数据集构建原始高维数据矩阵和标签列,自定义要选取的特征个数T;其中,T小于医疗数据集的特征总数;步骤2、根据原始高维数据矩阵和标签列,求取每个特征对称不确定性SU值;步骤3、根据SU值对所有特征进行降序排列,获得待选的有序特征序列,将SU值最大的特征加入构建的初始为空的特征子集,并将其从待选的有序特征序列中剔除;步骤4、针对待选的有序特征序列中剩余的每个特征fp,求取其对称不确定性SU值以及其与已选的所有特征关于标签列的多变量对称不确定性MSU值,结合每个特征的SU值和MSU值构建该特征对应的特征评价函数;步骤5、利用每个特征对应的特征评价函数对该特征进行评价,将评价值最高的T-1个特征加入所述特征子集;步骤6、根据所得特征子集从原始高维数据矩阵选择相应T个特征对应的数据构建新的医疗数据集,并结合分类器和K折交叉验证方法对所选特征子集进行评价。本专利技术与现有技术相比,其显著优点为:1)综合考虑了特征与标签之间的相关性,特征与特征之间的冗余性,选择出的特征子集能够更好的代表原始高维数据;2)采用对称不确定性SU衡量特征与标签的相关性,对互信息量做了归一化处理,并控制其取值范围在[0,1],从而弥补了传统基于互信息特征选择方法倾向于选取取值较大的特征的缺点;3)采用多变量对称不确定性MSU衡量多个特征之间的冗余性,弥补了SU只能衡量成对特征之间关联性的缺陷;4)本专利技术的方法属于Filter方法,计算过程不依赖于特定的分类器,因此计算效率较高,同时可以选择出规模较小的特征子集,并且仍能保持较高的分类准确率。下面结合附图对本专利技术作进一步详细描述。附图说明图1为本专利技术基于信息理论的医疗数据集特征选择方法的流程图。图2为本专利技术实施例中选择不同特征数量对应的分类准确率曲线图。具体实施方式结合图1,本专利技术的基于信息理论的医疗数据集特征选择方法,包括以下步骤:步骤1、根据待分析的医疗数据集构建原始高维数据矩阵和标签列,自定义要选取的特征个数T;其中,T小于医疗数据集的特征总数;步骤2、根据原始高维数据矩阵和标签列,求取每个特征对称不确定性SU值;步骤3、根据SU值对所有特征进行降序排列,获得待选的有序特征序列,将SU值最大的特征加入构建的初始为空的特征子集,并将其从待选的有序特征序列中剔除;步骤4、针对待选的有序特征序列中剩余的每个特征fp,求取其对称不确定性SU值以及其与已选的所有特征关于标签列的多变量对称不确定性MSU值,结合每个特征的SU值和MSU值构建该特征对应的特征评价函数;步骤5、利用每个特征对应的特征评价函数对该特征进行评价,将评价值最高的T-1个特征加入所述特征子集;步骤6、根据所得特征子集从原始高维数据矩阵选择相应T个特征对应的数据构建新的医疗数据集,并结合分类器和K折交叉验证方法对所选特征子集进行评价。进一步地,步骤1中根据待分析的医疗数据集构建原始高维数据矩阵和标签列,具体为:假设构建原始高维数据矩阵n为医疗数据集样本总数,m为原始特征维数;矩阵M的第一列为标签列,用向量表示,矩阵M除第一列之后的部分为数据矩阵,用矩阵表示;所述数据矩阵的第i行表示第i个样本在所有特征下的观察值,第j列表示第j个特征的所有观察值。进一步地,步骤2根据原始高维数据矩阵和标签列,计算每个特征的对称不确定性SU值,具体为:对称性是用于度量特征之间关联的有力指标。互信息的取值易于倾向具有多值的变量,而对称不确定性改善了这一缺点,实际上为互信息的归一化表示。两个离散型随机变量X={x1,x2,...,xn}和Y={y1,y2,...,yn}的对称不确定性定义为:式中,定义p(xi)为离散型随机变量xi的概率质量函数,H(X)为随机变量X的信息熵,定义为:式中,对数函数默认以2为底,单位为bit。同理,H(Y)为随机变量Y的信息熵。在信息论中,信息熵描述了变量不确定性的期望。在Y的条件下,X的条件熵定义为:条件熵H(X|Y)表示关于X在已知Y的条件下不确定性剩余的大小。定义X和Y的联合分布为p(xi,yj),边缘分布为p(xi),p(yi),变量X和Y的互信息(MutualInformation)I(X;Y)定义为:综上,每个特征的对称不确定性SU值为:式中,Xk表示特征fk对应的高维数据矩阵中第k列数据,y表示标签列,I(Xk,y)表示Xk与y的互信息,H(Xk)、H(y)分别表示Xk、y的信息熵,H(Xk|y)表示在y的条件下,Xk的条件熵。进一步地,步骤4中求取剩余的每个特征fp与已选的所有特征关于标签列的多变量对称不确定性MS本文档来自技高网
...

【技术保护点】
1.一种基于信息论的医疗数据集特征选择方法,其特征在于,包括以下步骤:步骤1、根据待分析的医疗数据集构建原始高维数据矩阵和标签列,自定义要选取的特征个数T;其中,T小于医疗数据集的特征总数;步骤2、根据原始高维数据矩阵和标签列,求取每个特征对称不确定性SU值;步骤3、根据SU值对所有特征进行降序排列,获得待选的有序特征序列,将SU值最大的特征加入构建的初始为空的特征子集,并将其从待选的有序特征序列中剔除;步骤4、针对待选的有序特征序列中剩余的每个特征fp,求取其对称不确定性SU值以及其与已选的所有特征关于标签列的多变量对称不确定性MSU值,结合每个特征的SU值和MSU值构建该特征对应的特征评价函数;步骤5、利用每个特征对应的特征评价函数对该特征进行评价,将评价值最高的T‑1个特征加入所述特征子集;步骤6、根据所得特征子集从原始高维数据矩阵选择相应T个特征对应的数据构建新的医疗数据集,并结合分类器和K折交叉验证方法对所选特征子集进行评价。

【技术特征摘要】
1.一种基于信息论的医疗数据集特征选择方法,其特征在于,包括以下步骤:步骤1、根据待分析的医疗数据集构建原始高维数据矩阵和标签列,自定义要选取的特征个数T;其中,T小于医疗数据集的特征总数;步骤2、根据原始高维数据矩阵和标签列,求取每个特征对称不确定性SU值;步骤3、根据SU值对所有特征进行降序排列,获得待选的有序特征序列,将SU值最大的特征加入构建的初始为空的特征子集,并将其从待选的有序特征序列中剔除;步骤4、针对待选的有序特征序列中剩余的每个特征fp,求取其对称不确定性SU值以及其与已选的所有特征关于标签列的多变量对称不确定性MSU值,结合每个特征的SU值和MSU值构建该特征对应的特征评价函数;步骤5、利用每个特征对应的特征评价函数对该特征进行评价,将评价值最高的T-1个特征加入所述特征子集;步骤6、根据所得特征子集从原始高维数据矩阵选择相应T个特征对应的数据构建新的医疗数据集,并结合分类器和K折交叉验证方法对所选特征子集进行评价。2.根据权利要求1所述的基于信息论的医疗数据集特征选择方法,其特征在于,步骤1所述根据待分析的医疗数据集构建原始高维数据矩阵和标签列,具体为:假设构建原始高维数据矩阵n为医疗数据集样本总数,m为原始特征维数;矩阵M的第一列为标签列,用向量表示,矩阵M除第一列之后的部分为数据矩阵,用矩阵表示;所述数据矩阵的第i行表示第i个样本在所有特征下的观察值,第j列表示第j个特征的所有观察值。3.根据权利要求1或2所述的基于信息论的医疗数据集特征选择方法,其特征在于,步骤2所述根据原始高维数据矩阵和标签列,计算每个特征的对称不确定性SU值,所用公式为:式中,Xk表示特征fk对应的高维数据矩阵中第k列数据,y表示标签列,I(Xk,y)表示Xk与y的互信息,H(Xk)、H(y)分别表示Xk、y的信息熵,H(Xk|y)表示在y的条件下,Xk的条件熵。4.根据权利要求3所述的基于信息论的医疗数据集特征选择方法,其特征在于,步骤4所述求取剩余的每个特征fp与已选的所有特征关于标签列的多变...

【专利技术属性】
技术研发人员:陈响洲庾安妮徐雷
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1