当前位置: 首页 > 专利查询>中山大学专利>正文

一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统技术方案

技术编号:29309567 阅读:65 留言:0更新日期:2021-07-17 02:09
本发明专利技术公开了一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统,基于特征选择结合统计机器学习算法,对冠心病患者临床检验中使用到的近百个指标进行筛选,建立高预测精度的模型,可作为是否进行冠脉造影的依据,且通过合并临床检验指标及图像检测结果以及患者电子病历信息计算患者目前患有冠心病的风险,以及为后续确诊提供评估依据。以及为后续确诊提供评估依据。

【技术实现步骤摘要】
一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统


[0001]本专利技术属于数据训练与统计机器学习数据挖掘领域研究技术,特别涉及一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统。
技术背景
[0002]心脏类疾病是全球范围内,尤其是我国致死率最高的疾病,其致死率超过所有癌症的总和。根据2019年中国心血管健康与疾病报告中给出的数据,总体上看,中国心血管病患病率及死亡率仍处于上升阶段。推算心血管病现患人数3.30亿,其中脑卒中1300万,冠心病1100万,肺原性心脏病500万,心力衰竭890万,风湿性心脏病250万,先天性心脏病200万,下肢动脉疾病4530万,高血压2.45亿。其中,心血管病死亡占城乡居民总死亡原因的首位,农村为45.91%,城市为43.56%。中国心血管病负担日渐加重,已成为重大的公共卫生问题,防治心血管病刻不容缓。
[0003]冠心病是主要的心脏类疾病之一,其定义为冠状动脉粥样硬化造成的心脏血供不足,当病理状态到达一定程度后被确诊为冠心病。根据《中国卫生健康统计年鉴2018》,2017年城市居民冠心病死亡率为115.32/10万,农村居民冠心病死亡率为122.04/10万,农村地区高于城市地区,男性高于女性。2017年冠心病死亡率继续2012年以来的上升趋势。农村地区冠心病死亡率上升明显,到2016年已超过城市水平。
[0004]冠心病在医学领域诊断的最佳方式是通过冠脉造影技术的结果来判断。冠脉造影是一种有创的检查冠心病的方法,因其检查的准确程度高,在医学界确定为金标准。它通常将造影剂通过患者动脉注射进身体,通过造影剂流过心脏动脉时X光的呈现来观察心脏动脉中病变状况。因为冠脉造影技术是现有的诊断的技术之一,因此,作为现有技术,本领域的常规技术人员应当掌握。
[0005]确定的事实是大多数心血管疾病的死亡与人们对其自身医疗状况的认知程度相关,并且由缺乏及时治疗而导致。
[0006]常见的冠心病诊断方案及局限性:
[0007]1、冠脉造影
[0008]目前冠心病(Coronary Heart Disease,CHD)诊断的“金标准”仍然是侵入性的并伴有许多致命的副作用的冠状动脉造影,这限制了大规模的人群筛查和早期的CHD风险预测。
[0009]近年来,这项技术的操作给患者带来负面的伤害被广泛研究,其主要缺陷具体表述为:首先,造影剂注射进人体后需要通过肾脏代谢,而具有肾功能疾病或缺陷的患者,经历了此项检查后会有可能患造影剂肾病;其次,冠脉造影是一项有创手术,需要通过在患者的桡动脉及股动脉进行穿刺,穿刺造成的创口在愈合过程中,会产生一定程度的增生,因此会加重动脉官腔狭窄的程度,这对患者是很不利的。由于冠心病的本质即冠状动脉粥样硬化导致的官腔狭窄,而冠脉造影在某种程度上加重了官腔狭窄,与治疗理念相悖。最后,尤
其是在我国,乡村地区的心脏类疾病患者数量远超城镇地区,众所周知,冠脉造影的诊察费用昂贵,而事实情况是,很多农村患者在确诊CHD时更依赖于医生的经验而选择放弃该诊断方式,因此金标准在社会环境和经济因素的影响下也丧失了部分现实意义。
[0010]其主要缺陷总结为:成本昂贵,术后带给人体的副作用明显。
[0011]2、基于冠心病诊断神经网络模型冠心病诊断方法及系统
[0012]已有专利研究基于中医诊断方法中“望闻问切”的流程,进行人工智能化,设计出具体的系统。系统将词输入预先训练完成的冠心病诊断神经网络模型,获得并输出患者的证候要素、证候、治法和/或药材基本要素信息。根据患者病症提供的关键词,给出可能性较大的诊断结果和治疗方案以及提供后续需要服用的药物信息等,以此实现人工智能应用于辅助诊断的效果。
[0013]其弊端可能存在为:首先,用于诊断的数据(例如:头晕,胸闷等描述症状的词汇)主观性较强,不能准确反映内在病因。其次,系统对于全部患者的诊断遵循同一套流程,未对患者其他并发症(例如:糖尿病,高尿酸血症等)进行研究,但事实上导致一种症候的原因可能有很多种,不能一概而论。技术上存在的弊端是:深度学习中常用的神经网络在应用在各具体场景下的可解释性仍然是一个“open problem”,因此,应用于实际的说服性有待商榷。
[0014]3、预测与代谢物相关的疾病(特别是冠心病)的风险的生物标志物和方法。
[0015]已有专利研究,使用随机森林模型对17种血液,血清,血浆中的生物标记物进行监督训练,提供用于评估CHD风险或CHD的诊断或早期诊断的生物标志物组合物和方法。
[0016]该方法基于代谢组学(一种创新的高通量生物分析方法),依赖特定生理状态中的小分子,较其他生物标记物体现出更高的灵敏度,更广的代谢组覆盖范围,提高的代谢物鉴定和鉴别能力,以及执行化合物类别特定分析的模块性的性质。捕捉发病前期生物体内的微观变化,因此可以为患者争取到良好的治疗时机。
[0017]该方法的局限在于:
[0018]首先,17种生物标记物的筛选条件以及在临床检测中获取的难度和成本尚未给出明确的陈述,因此应用在实际中的可能性不能保证;根据本领域的常规认知,提取物分子越小或者要求精度越高的化验的成本和设备的要求都是很高的。
[0019]其次,研究中将疾病概率的阈值限定为50%,即得到的结果非黑即白,但若诊断结果是患病,却无法提供程度的深浅和贡献程度较大的数据特征。因此诊断的结果给到患者的信息过少,无法根据个体差异提供具体的依据。另外,阈值的限定并不是业界已有的标准,是数据分析过程中的经验值设定,故参数的设计方面缺少权威性,具有主观性。

技术实现思路

[0020]鉴于在
技术介绍
中所提及的现有技术中存在缺陷,本专利技术旨在于提供一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统,基于特征选择结合统计机器学习算法,对冠心病患者临床检验中使用到的近百个指标进行筛选,建立高预测精度的模型,可作为是否进行冠脉造影的依据。
[0021]为了实现上述目的,本专利技术采用的技术方案如下:
[0022]一种用于冠心病预诊断中的改进型随机森林模型,具有整体样本,所述模型的建
立了首先将所述整体样本读取至内存中,然后对所述整体样本进行特征降维和特征选择,再将筛选后的数据集作为分类器的输入,通过设置12倍交叉验证对训练集进行训练,获得随机森林模型的内部参数,所获得参数设置于随机森林模型中并对整体样本进行训练,至训练结束后保存获得用于冠心病预诊断中的改进型随机森林模型。
[0023]优选的,所述特征降维和特征选择包括所处理的数据均经过了归一化处理,整合了数据类型,从而提高最后分类的质量;对所述数据进行分类,按照数据类型将数据分为数值类型特征和分类属性的特征,即所有连续性属性的特征作为一个特征集(Dataset1),所有分类属性的数据作为另一个特征集(Dataset2);然后,在特征筛选过程中,将上述两个数据集分别放入设置好的特征选择模型中,通过模型的计算,分别得到每个数据集对应五个选择模型的最优特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于冠心病预诊断中的改进型随机森林模型,具有整体样本,其特征在于,所述模型的建立了首先将所述整体样本读取至内存中,然后对所述整体样本进行特征降维和特征选择,再将筛选后的数据集作为分类器的输入,通过设置12倍交叉验证对训练集进行训练,获得随机森林模型的内部参数,所获得参数设置于随机森林模型中并对整体样本进行训练,至训练结束后保存获得用于冠心病预诊断中的改进型随机森林模型。2.根据权利要求1所述的用于冠心病预诊断中的改进型随机森林模型,其特征在于,所述特征降维和特征选择包括所处理的数据的类型是一致的,具有更好的归一化性质;对所述数据进行分类,按照数据类型将数据分为数值类型特征和分类属性的特征,即所有连续性属性的特征作为一个特征集,所有分类属性的数据作为另一个特征集;然后,特征选择部分将所有连续性属性的特征集、所有分类属性的数据集分别放在筛选好的选择器中进行计算,分别得到每个选择器下的最优特征集1、最优特征集2;将最优特征集1、最优特征集2在投票模型中进行汇总,将得到票数作为阈值,其中,统计所有阈值≥4的特征形成最优特征集;统计最优特征集中所有元素的贡献值;其次,统计训练结果的评价指标,进行后续分析。3.根据权利要求2所述的用于冠心病预诊断中的改进...

【专利技术属性】
技术研发人员:吴万庆蒋明哲张献斌
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1