二型糖尿病合并癌症与常规化验指标相关性分析模型制造技术

技术编号:34104441 阅读:14 留言:0更新日期:2022-07-12 00:09
本发明专利技术涉及医学化验指标数据分析技术领域,具体涉及一种二型糖尿病合并癌症与常规化验指标相关性分析模型,其创建方法包括以下步骤:步骤一、对确诊糖尿病的病例进行筛选,得到观察组和对照组实验数据;步骤二、数据清洗,提取的化验项数据变量,获得有效变量;对变量中的分类变量,利用其构成比对缺失值进行填充;步骤三、主要特征探索,首先使用最小描述长度算法,探索提取数据中变量中的每一个的特征重要性,找出观察组与对照组之间最重要的特征;步骤四、建立机器学习模型;步骤五、模型评估。本发明专利技术基于监督学习的多种机器学习方法的综合应用,可以有效地挖掘隐藏在大样本真实数据中的知识和规则。中的知识和规则。中的知识和规则。

【技术实现步骤摘要】
二型糖尿病合并癌症与常规化验指标相关性分析模型


[0001]本专利技术涉及医学化验指标数据分析
,具体涉及一种二型糖尿病合并癌症与常规化验指标相关性分析模型。

技术介绍

[0002]研究资料表明,糖尿病患者中肿瘤发病率可高达28.35%,远远高于普通人群各年龄段最高的1.16%发病率。目前,糖尿病导致恶性肿瘤发病率增加的确切发病机制尚不清楚,降糖药物与癌症风险间关系的研究也十分有限。因此探究二型糖尿病是否是癌症发生的一个独立风险因素,定量评估糖尿病,降糖药物使用与癌症以及肺癌,肝癌,结直肠癌等21种常见癌症发生风险之间的关系,能为糖尿病与癌症的疾病防治与慢性病管理提供临床与政策建议。

技术实现思路

[0003]本专利技术提供一种二型糖尿病合并癌症与常规化验指标相关性分析模型,基于监督学习的多种机器学习方法的综合应用,可以有效地挖掘隐藏在大样本真实数据中的知识和规则,并利用这些变量进行建模,可根据常规检查指标预测2型糖尿病病人中罹患癌症的危险人群。
[0004]为了达到上述目的,本专利技术提供如下技术方案:一种二型糖尿病合并癌症与常规化验指标相关性分析模型,其创建方法包括以下步骤:
[0005]步骤一、对确诊糖尿病的病例进行筛选,获得确诊二型糖尿病合并癌症,排除心脏病、肾病、高血压、动脉硬化、高血脂的观察病例,和确诊二型糖尿病,排除癌症、心脏病、肾病、高血压、动脉硬化、高血脂的对照病例;分别对观察病例以及对照病例进行筛分获得相对应的关联化验数据;对两组关联化验数据在年龄、性别上进行聚类匹配法进行匹配,得到观察组和对照组;
[0006]步骤二、数据清洗,提取的化验项数据变量,将缺失值率超过30%的变量予以删除,获得有效变量;对有效变量中的定量变量进行正态性检验,凡是通过正态检验的利用均值对缺失值予以填充,未通过正态性检验的利用中位数予以填充;对变量中的分类变量,利用其构成比对缺失值进行填充;
[0007]步骤三、主要特征探索,首先使用最小描述长度算法,探索提取数据中变量中的每一个的特征重要性,找出观察组与对照组之间最重要的特征;
[0008]步骤四、建立机器学习模型;
[0009]步骤五、模型评估。
[0010]优选的,所述聚类匹配法为,根据年龄性别采用K均值算法将观察组进行聚类,分成不同的亚组{am}并得到分组规则,根据分组规则将对照组同样进行分组,得到{bm},以同类两组例数比最低值min(ai∶bi)为基础比例,在对照组的每个亚组,即对应观察组的每个亚组中根据基础比例随机选取病例,b

j=aj/min(ai∶bi),保证两组在每个亚组的比例相
同,同时保证将所有的观察组数据均纳入分析。
[0011]优选的,所述步骤三中,利用MDL算法将每一个相关变量看做是一个简单的预测模型,使用其相应的MDL度量对这些单一预测模型进行比较和评分,并找出相关变量;
[0012]公式为:S
i
(Model
i
,D)=S(Model
i
)+S(C
i
),
[0013]其中S
i
(Model
i
,D)为应用第i个属性建立简单预测模型后得到的总大小,S(Model
i
)为应用第i个属性建立简单预测模型的大小,S(C
i
)是第i个属性建立简单预测模型后所有预测错误的原始数据大小的总和。
[0014]优选的,所述步骤三中,根据特征选择算法所发现的特征是优选特征。
[0015]优选的,所述步骤三中,选择的特征涵盖常规检查不同的方面,如血常规、肝肾功能、电解质。
[0016]优选的,所述步骤三中,特征独立于变量,并降低多元相关性和多元共线性。
[0017]本专利技术有益效果为:通过数据挖掘和探索发现了2型糖尿病合并癌症与2型糖尿病研究相关的几个指标,利用机器学习算法可以建立效率较高的分类模型,并验证了这些相关指标的可靠性指标也得到了核实。分类模型在有监督学习的基础上,应用了MDL变量选择模型、决策树和Bayes分类模型等多种机器学习方法,对多年的大样本临床数据进行分类。对2型糖尿病合并癌症的相关特征进行了探讨、挖掘和分析。结果表明,基于红细胞体积分布宽度、红细胞比积测定、中性粒细胞比率、血红蛋白测定、胆碱脂酶、钾的分类模型对2型糖尿病合并癌症的预测分类更为有效。这种基于监督学习的多种机器学习方法的综合应用,可以有效地挖掘隐藏在大样本真实数据中的知识和规则。因此,利用这些变量进行建模,可以根据常规检查指标预测2型糖尿病病人中罹患癌症的危险人群,有助于早期发现、早期防治。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本专利技术中前30个特征系数分布图;
[0020]图2为本专利技术机器模型的学习流程图;
[0021]图3示出了本专利技术ROC曲线汇总;
[0022]图4示出了本专利技术6个模型的校正曲线。
具体实施方式
[0023]下面将结合本专利技术的附图,对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]一种二型糖尿病合并癌症与常规化验指标相关性分析模型,其创建方法包括以下步骤:
[0025]步骤一、对确诊糖尿病的病例进行筛选,获得确诊二型糖尿病合并癌症,排除心脏病、肾病、高血压、动脉硬化、高血脂的观察病例,和确诊二型糖尿病,排除癌症、心脏病、肾病、高血压、动脉硬化、高血脂的对照病例;分别对观察病例以及对照病例进行筛分获得相对应的关联化验数据;对两组关联化验数据在年龄、性别上进行聚类匹配法进行匹配,得到观察组和对照组;
[0026]通过执行真实病例数据,将陕西省人民医院自2018年10月至2019年9月全部住院病例中主要诊断或其他诊断中确诊为糖尿病的病例共23,916例,观察组纳入确诊2型糖尿病合并癌症,排除心脏病、肾病、高血压、动脉硬化、高血脂的病例,共1630例,其中714例关联到化验数据,对照组纳入确诊2型糖尿病,排除癌症、心脏病、肾病、高血压、动脉硬化、高血脂的病例共4290例,其中1724例关联到化验数据;对两组数据在年龄、性别上进行聚类匹配法进行匹配,得到观察组714例,对照组667例。
[0027]其中的聚类匹配法为,根据年龄性别采用K均值算法将观察组进行聚类,分成不同的亚组{am}并得到分组规则,根据分组规则将对照组同样进行分组,得到{bm},以同类两组例数比最低值min(a本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种二型糖尿病合并癌症与常规化验指标相关性分析模型,其特征在于,创建方法包括以下步骤:步骤一、对确诊糖尿病的病例进行筛选,获得确诊二型糖尿病合并癌症,排除心脏病、肾病、高血压、动脉硬化、高血脂的观察病例,和确诊二型糖尿病,排除癌症、心脏病、肾病、高血压、动脉硬化、高血脂的对照病例;分别对观察病例以及对照病例进行筛分获得相对应的关联化验数据;对两组关联化验数据在年龄、性别上进行聚类匹配法进行匹配,得到观察组和对照组;步骤二、数据清洗,提取的化验项数据变量,将缺失值率超过30%的变量予以删除,获得有效变量;对有效变量中的定量变量进行正态性检验,凡是通过正态检验的利用均值对缺失值予以填充,未通过正态性检验的利用中位数予以填充;对变量中的分类变量,利用其构成比对缺失值进行填充;步骤三、主要特征探索,首先使用最小描述长度算法,探索提取数据中变量中的每一个的特征重要性,找出观察组与对照组之间最重要的特征;步骤四、建立机器学习模型;步骤五、模型评估。2.根据权利要求1所述的二型糖尿病合并癌症与常规化验指标相关性分析模型,其特征在于:所述聚类匹配法为,根据年龄性别采用K均值算法将观察组进行聚类,分成不同的亚组{am}并得到分组规则,根据分组规则将对照组同样进行分组,得到{bm},以同类两组例数比最低值min(ai:bi)为基础比例,在对照组的每个亚组,即对应观察组的每个亚组中根据基础比例随机选取病例,b

j=aj/min(a...

【专利技术属性】
技术研发人员:邱宾朱火兰张恩科马富春
申请(专利权)人:陕西省人民医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1