【技术实现步骤摘要】
基于乳腺癌数据的变量筛选方法及系统、可读存储介质
[0001]本申请涉及医疗数据处理
,具体而言,涉及一种基于乳腺癌数据的变量筛选方法及系统、可读存储介质。
技术介绍
[0002]积极开展对乳腺癌数据方面的研究,有利于为医疗预防,筛查防护,提供科学支持和数据支持。现有乳腺癌数据的变量筛选方法是在线性模型的假定下,通过计算变量间的Pearson相关系数,再对相关系数绝对值排序实现迅速降维,把高维数据的变量初步筛选,之后再利用成熟的变量选择方法,在实际操作中,由于变量之间的共线性,模型也不一定是线性等因素的影响,错误率较高。
技术实现思路
[0003]根据本申请的实施例旨在至少改善乳腺癌数据的变量筛选方法错误率较高的问题。
[0004]为此,本申请的第一目的在于提供一种基于乳腺癌数据的变量筛选方法。
[0005]本申请的第二目的在于提供一种基于乳腺癌数据的变量筛选系统。
[0006]本申请的第三目的在于提供一种基于乳腺癌数据的变量筛选系统。
[0007]本申请的第四目的在于提 ...
【技术保护点】
【技术特征摘要】
1.一种基于乳腺癌数据的变量筛选方法,其特征在于,包括:获取乳腺癌数据;对所述乳腺癌数据进行预处理,所述预处理包括数据归一化和异常值处理;通过最大信息系数法对预处理后的所述乳腺癌数据进行相关性分析,得出第一筛选结果;对所述第一筛选结果进行变量筛选,得出第二筛选结果,所述变量筛选的方法包括以下之一或其组合:Lasso算法、随机森林、SIS变量筛选和DC
‑
SIS变量筛选。2.根据权利要求1所述的基于乳腺癌数据的变量筛选方法,其特征在于,所述最大信息系数法的计算公式为:;其中,为最大信息系数,a、b为在坐标轴x、y上分别划分的格子数,B为最大网格数,为互信息,、均为随机变量。3.根据权利要求2所述的基于乳腺癌数据的变量筛选方法,其特征在于,所述DC
‑
SIS变量筛选的公式为:;;其中,为距离相关系数,为表示重要性程度的系数,为随机变量,为距离协方差。4.根据权利要求1至3中任一项所述的基于乳腺癌数据的变量筛选方法,其特征在于,所述Lasso算法的公式为:;其中,是惩罚参数,是维的列向量,是维的矩阵,是维的参数,为参数估计量,为维度,。5.根据权利要求1至3中任一项所述的基于乳腺癌数据的变量筛选方法,其特征在于,所述SIS变量筛选的公式为:;;;其中,为因变量,为维矩阵,为的转置矩阵,是矩阵X的维子
矩阵,为参数向量,对应的是下标集的d个元素组成的参数向量,为误差,为皮尔逊系数。6.根据权利要求1至3中任一项所述的基于乳腺癌数据...
【专利技术属性】
技术研发人员:初玉婷,廉海荣,郭翠平,金旸,李德湘,
申请(专利权)人:中国地质大学北京,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。