基于信息论的医疗数据集特征选择方法技术

技术编号：22389066 阅读：96 留言：0更新日期：2019-10-29 07:01

本发明专利技术公开了一种基于信息论的医疗数据集特征选择方法，包括以下步骤：根据待分析的医疗数据集构建原始高维数据矩阵和标签列，自定义要选取的特征个数T；求取每个特征的对称不确定性SU值；根据SU对所有特征进行降序排列，将SU值最大的特征加入初始为空的特征子集；针对剩余的每个特征fp，求取其SU值以及其与目前已选的所有特征的多变量对称不确定性MSU值，结合SU值和MSU值构建特征的特征评价函数；利用特征评价函数对特征进行评价，将评价值最高的T‑1个特征加入特征子集；结合分类器和K折交叉验证方法对所选特征子集进行评价。本发明专利技术方法通过最大化特征与标签的相关性，同时最小化特征之间的冗余性进行特征选择，在计算效率，分类准确率和选择的特征子集规模上明显更优。

Feature selection method of medical data set based on information theory

全部详细技术资料下载

【技术实现步骤摘要】
基于信息论的医疗数据集特征选择方法
本专利技术属于大数据技术与机器学习领域，特别是一种基于信息论的医疗数据集特征选择方法。
技术介绍
在实际应用场景产生的机器学习问题中，都会产生大量复杂的高维数据。大多数数据分析任务的运行时间至少随数据维度的增加呈线性增长，存储、分析高维数据需要消耗大量计算机存储资源，花费很多计算时间。并且很多数据挖掘和机器学习的任务如分类、聚类和回归，只在低维空间取得好效果，如果放置到高维空间会非常困难。所以如何对高维数据进行特征降维，并保持重要信息不丢失是迫在眉睫要解决的问题。特征选择(FeatureSelection,FS)是选择原始特征子集的过程，特征子集通常比原始特征集合小得多。一般特征选择的目标为选择与标签相关(relevant)的特征，并剔除与其他相关特征冗余(redundant)的特征。广义上，根据与机器学习算法之间的联系，特征选择算法分为三类：Filter方法，Wrapper方法和Embedded方法。Filter方法利用某种统计学的指标作为衡量标准，是一种独立于特定机器学习算法的特征选择方法。相反Wrapper方法的衡量标准是基于某个分类器的表现的，所以总的来说Wrapper方法的计算量更大。Embedded方法综合了以上两种方法，将特征选择和学习器的训练在同一个优化过程中完成。现存的基于信息论的特征选择方法属于Filter方法，或多或少存在一些弊端。如大多数基于信息理论的方法只能处理离散型数据，无法处理连续型数据。互信息最大化MIM(MutualInformationMaximization)方法只考虑了每个单独的特...

【技术保护点】
1.一种基于信息论的医疗数据集特征选择方法，其特征在于，包括以下步骤：步骤1、根据待分析的医疗数据集构建原始高维数据矩阵和标签列，自定义要选取的特征个数T；其中，T小于医疗数据集的特征总数；步骤2、根据原始高维数据矩阵和标签列，求取每个特征对称不确定性SU值；步骤3、根据SU值对所有特征进行降序排列，获得待选的有序特征序列，将SU值最大的特征加入构建的初始为空的特征子集，并将其从待选的有序特征序列中剔除；步骤4、针对待选的有序特征序列中剩余的每个特征fp，求取其对称不确定性SU值以及其与已选的所有特征关于标签列的多变量对称不确定性MSU值，结合每个特征的SU值和MSU值构建该特征对应的特征评价函数；步骤5、利用每个特征对应的特征评价函数对该特征进行评价，将评价值最高的T‑1个特征加入所述特征子集；步骤6、根据所得特征子集从原始高维数据矩阵选择相应T个特征对应的数据构建新的医疗数据集，并结合分类器和K折交叉验证方法对所选特征子集进行评价。

【技术特征摘要】
1.一种基于信息论的医疗数据集特征选择方法，其特征在于，包括以下步骤：步骤1、根据待分析的医疗数据集构建原始高维数据矩阵和标签列，自定义要选取的特征个数T；其中，T小于医疗数据集的特征总数；步骤2、根据原始高维数据矩阵和标签列，求取每个特征对称不确定性SU值；步骤3、根据SU值对所有特征进行降序排列，获得待选的有序特征序列，将SU值最大的特征加入构建的初始为空的特征子集，并将其从待选的有序特征序列中剔除；步骤4、针对待选的有序特征序列中剩余的每个特征fp，求取其对称不确定性SU值以及其与已选的所有特征关于标签列的多变量对称不确定性MSU值，结合每个特征的SU值和MSU值构建该特征对应的特征评价函数；步骤5、利用每个特征对应的特征评价函数对该特征进行评价，将评价值最高的T-1个特征加入所述特征子集；步骤6、根据所得特征子集从原始高维数据矩阵选择相应T个特征对应的数据构建新的医疗数据集，并结合分类器和K折交叉验证方法对所选特征子集进行评价。2.根据权利要求1所述的基于信息论的医疗数据集特征选择方法，其特征在于，步骤1所述根据待分析的医疗数据集构建原始高维数据矩阵和标签列，具体为：假设构建原始高维数据矩阵n为医疗数据集样本总数，m为原始特征维数；矩阵M的第一列为标签列，用向量表示，矩阵M除第一列之后的部分为数据矩阵，用矩阵表示；所述数据矩阵的第i行表示第i个样本在所有特征下的观察值，第j列表示第j个特征的所有观察值。3.根据权利要求1或2所述的基于信息论的医疗数据集特征选择方法，其特征在于，步骤2所述根据原始高维数据矩阵和标签列，计算每个特征的对称不确定性SU值，所用公式为：式中，Xk表示特征fk对应的高维数据矩阵中第k列数据，y表示标签列，I(Xk,y)表示Xk与y的互信息，H(Xk)、H(y)分别表示Xk、y的信息熵，H(Xk|y)表示在y的条件下，Xk的条件熵。4.根据权利要求3所述的基于信息论的医疗数据集特征选择方法，其特征在于，步骤4所述求取剩余的每个特征fp与已选的所有特征关于标签列的多变...

【专利技术属性】
技术研发人员：陈响洲，庾安妮，徐雷，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人