基于异构特征融合的冠心病风险预测方法、模型及系统技术方案

技术编号:19965127 阅读:31 留言:0更新日期:2019-01-03 13:17
本发明专利技术公开了一种基于异构特征融合的冠心病风险预测方法、模型及系统,该冠心病风险预测模型通过以下步骤训练获得:S1、从多个来源采集批量病人的病理数据,并进行预处理;S2、对预处理后的多个来源的病理数据进行特征提取及筛选,获得多个与冠心病风险相关的特征集;S3、对获得的多个特征集进行特征筛选,对应获得筛选后的多个特征子集;S4、基于多个特征子集,采用阶段集成学习方法,完成多源异构特征信息的融合,逐步训练获得冠心病风险预测模型。本发明专利技术避免了人为主观因素对冠心病风险预测模型的影响,提高了冠心病风险预测模型的效率和精度,扩大了适用范围,而且降低了模型的构建成本,可广泛应用于数据处理领域中。

Risk Prediction Method, Model and System of Coronary Heart Disease Based on Heterogeneous Feature Fusion

The invention discloses a method, model and system for risk prediction of coronary heart disease based on heterogeneous feature fusion. The model is trained by the following steps: S1, collecting pathological data of batch patients from multiple sources and preprocessing; S2, feature extraction and screening of pathological data from multiple sources after preprocessing, and obtaining multiple risks of coronary heart disease. Relevant feature sets; S3, feature screening for multiple feature sets, corresponding to multiple feature subsets after screening; S4, based on multiple feature subsets, using stage integration learning method, completes the fusion of multi-source heterogeneous feature information, and gradually trains to obtain the risk prediction model of coronary heart disease. The invention avoids the influence of subjective factors on the risk prediction model of coronary heart disease, improves the efficiency and accuracy of the risk prediction model of coronary heart disease, enlarges the scope of application, and reduces the construction cost of the model, and can be widely used in the field of data processing.

【技术实现步骤摘要】
基于异构特征融合的冠心病风险预测方法、模型及系统
本专利技术涉及数据处理领域,特别是涉及基于异构特征融合的冠心病风险预测方法、模型及系统。
技术介绍
目前大多数冠心病风险预测模型都采用传统的基于统计分析的单特征或多特征建模方法,这类方法需要花费大量的时间去搜集和分析临床数据,并依靠有经验医生的先验知识来选取与疾病相关的危险因子,还需要通过定期的治后回访与调查来校检并修正模型,因此模型的建模过程将耗费大量的人力和财力。由于传统建模方法必须依赖医生的经验,而不同医生之间的经验水平往往差距较大,所以所选取的模型危险因子往往精度不高,从而导致冠心病风险预测模型的适用范围很窄,比如只适用于某个地区的人群,缺乏通用性。总的来说,目前的冠心病风险预测模型存在效率低、成本高、精度低、适用范围窄以及受人为主观因素的干扰等问题。名词解释Haar:一种用于描述区域对比度变化幅度的特征,常用于提取较为明显的图像边缘特性,并且常与级联分类器组合来进行对象检测。Tamura:一种基于人类视觉的自动纹理提取方法,根据人类视觉感知从心理学的角度采用一系列统计量对图像纹理进行描述。NMF:非负矩阵分解,用于将训练集的数据矩阵分解为两个非负矩阵,执行降维操作时,根据所需下降的维度数,从左部的非负矩阵中选取一个子矩阵来实现数据的降维。ESR级联形状回归器:一种基于形状索引的两级集成预测算法,由多个强回归器级联而成,强回归器可以灵活选择,通常需要通过多个弱回归器集成得到,常用于特征点检测。VGG网络:一种使用小卷积核和多层卷积完成图像特征学习的深度网络,有五种经典配置,可以根据图像的像素范围灵活选取。Adaboost:一种通过错判率去自适应调整弱学习器权重的集成学习算法,后续迭代训练的弱学习器会根据前面弱学习器提供的判别信息逐步得到提升。随机森林:一种针对子特征集训练多个树状弱学习器,并通过加权投票集成来进行分类或预测的算法,弱学习器的训练相互独立、互不影响。GBDT回归森林:一种通过迭代进行回归树集成的算法,迭代后期的回归树会根据前期回归树传递的梯度信息进行提升,有较好的泛化能力。xgboost回归森林:一种大规模并行的集成回归树算法,每一棵回归树均可以在特征粒度上并行进行训练,同时不同回归树的训练也是并行的。K近邻算法:一种通过样本空间中与输入样本距离最近的K个样本的类别分布来决定输入样本所属类别的“懒学习”机器学习算法,不需要通过训练样本来训练模型参数。opencv:一个几乎包括了计算机视觉领域的所有经典算法和工具的重量级图像库,大部分的与图像处理各个流程相关的任务都可以使用它进行处理。pandas:一个专门用于解决数据分析任务的python库,包含了大量快捷简便的数据处理工具与函数,适用于高效地操作大型数据集。sklearn:一个标准机器学习算法库,包括了所有经典机器学习算法,可以通过它完成各种机器学习相关的算法研究和产品设计等任务。keras:一个使用计算图和符号主义描述深度网络结构的深度学习库,对深度神经网络的各个组成部分进行了封装,可以隐式启动GPU进行高效图像运算。
技术实现思路
为了解决上述的技术问题,本专利技术的目的是提供基于异构特征融合的冠心病风险预测方法、模型及系统。本专利技术解决其技术问题所采用的第一技术方案是:基于异构特征融合的冠心病风险预测模型,所述冠心病风险预测模型通过以下步骤训练获得:S1、从多个来源采集批量病人的病理数据,并进行预处理;所述病人包括患冠心病的患者和未患冠心病的患者;S2、对预处理后的多个来源的病理数据进行特征提取及筛选,获得多个与冠心病风险相关的特征集;S3、对获得的多个特征集进行特征筛选,对应获得筛选后的多个特征子集;S4、基于多个特征子集,采用阶段集成学习方法,完成多源异构特征信息的融合,逐步训练获得冠心病风险预测模型;所述病理数据包括病人的综合临床数据及五官病理图像。进一步,所述步骤S1中,通过步骤S111~S113对综合临床数据进行预处理:S111、采用数据过滤算法对综合临床数据进行剔除处理,剔除信息缺失超过第一预设比例的异常数据项,以及丢失关键数据特征信息的非法数据项;S112、将剔除处理后的综合临床数据进行结构化处理;S113、针对结构化处理后的综合临床数据中信息缺失较少的数据项,通过K近邻插值法补充每个数据项的特征信息;所述步骤S1中,通过步骤S121~S124对五官病理图像进行预处理:S121、将每张五官病理图像,进行耳朵对象的位置和尺寸标注,最后形成耳朵积极图像集,并获取不包括耳朵对象的背景图像和噪声图像形成耳朵消极图像集;S122、将耳朵积极图像集和耳朵消极图像集作为训练集,采用特征描述器从训练集的所有图像中提取Haar特征;S123、基于提取的Haar特征,采用多个Adaboost强分类器进行耳朵分类模型训练,训练获得Haar耳朵级联分类器,并存储该分类器的模型结构和参数;S124、采用训练获得的Haar耳朵级联分类器对五官病理图像进行耳朵分割操作,获得每张五官病理图像的耳朵部位图像。进一步,所述步骤S2中,直接将综合临床数据的特征信息形成综合临床特征集,并对预处理所获得的所有耳朵部位图像进行特征提取及筛选,获得耳朵距离特征集、VGG耳朵特征集和冠状沟病理特征集;所述耳朵距离特征集通过步骤S211~S215提取获得:S211、基于分割获得的所有耳朵部位图像,训练一个ESR耳朵特征点检测器;S212、采用训练获得的ESR耳朵特征点检测器,提取每张耳朵部位图像的关键特征点;S213、从每张耳朵部位图像的所有关键特征点中筛选出具有代表性的耳朵关键穴位点;S214、根据每张耳朵部位图像的耳朵关键穴位点计算规范化的耳朵距离特征;S215、将所有耳朵部位图像对应的耳朵距离特征构成耳朵距离特征集;所述VGG耳朵特征集通过步骤S221~S224提取获得:S221、基于分割获得的所有耳朵部位图像,训练一个VGG耳朵特征提取器;S222、采用训练获得的VGG耳朵特征提取器,在每张耳朵部位图像的全局位置上,提取各个区域的多维局部表象特征;S223、采用NMF结合随机森林对多维局部表象特征进行降维处理;S224、将降维后的所有耳朵部位图像的局部表象特征构成VGG耳朵特征集;所述冠状沟病理特征集通过步骤S231~S235提取获得:S231、从分割获得的所有耳朵部位图像提取其冠状沟部位的Haar特征;S232、基于提取的Haar特征,采用多个Adaboost强分类器进行模型训练,训练获得对应的Haar级联冠状沟分类器,并存储该分类器的模型结构和参数;S233、采用训练获得的Haar级联冠状沟分类器对每张耳朵部位图像进行冠状沟部位的检测,得到对应的冠状沟区域;S234、采用Tamura法计算冠状沟区域的像素信息统计量,并对统计量进行分析后,获得与冠状沟纹理相关的病理特征;S235、将所有耳朵部位图像对应的与冠状沟纹理相关的病理特征构成冠状沟病理特征集。进一步,所述步骤S3中,通过以下方式对获得的多个特征集进行特征筛选:基于医生的先验知识对综合临床特征集进行特征筛选,获得对应的综合临床特征子集;基于综合重要性评分的加权特征筛选模型对耳朵距离特征集、VGG耳朵特征集和冠状沟病理特征集进行筛选,获得对应的本文档来自技高网
...

【技术保护点】
1.基于异构特征融合的冠心病风险预测模型,其特征在于,所述冠心病风险预测模型通过以下步骤训练获得:S1、从多个来源采集批量病人的病理数据,并进行预处理;所述病人包括患冠心病的患者和未患冠心病的患者;S2、对预处理后的多个来源的病理数据进行特征提取及筛选,获得多个与冠心病风险相关的特征集;S3、对获得的多个特征集进行特征筛选,对应获得筛选后的多个特征子集;S4、基于多个特征子集,采用阶段集成学习方法,完成多源异构特征信息的融合,逐步训练获得冠心病风险预测模型;所述病理数据包括病人的综合临床数据及五官病理图像。

【技术特征摘要】
1.基于异构特征融合的冠心病风险预测模型,其特征在于,所述冠心病风险预测模型通过以下步骤训练获得:S1、从多个来源采集批量病人的病理数据,并进行预处理;所述病人包括患冠心病的患者和未患冠心病的患者;S2、对预处理后的多个来源的病理数据进行特征提取及筛选,获得多个与冠心病风险相关的特征集;S3、对获得的多个特征集进行特征筛选,对应获得筛选后的多个特征子集;S4、基于多个特征子集,采用阶段集成学习方法,完成多源异构特征信息的融合,逐步训练获得冠心病风险预测模型;所述病理数据包括病人的综合临床数据及五官病理图像。2.根据权利要求1所述的基于异构特征融合的冠心病风险预测模型,其特征在于,所述步骤S1中,通过步骤S111~S113对综合临床数据进行预处理:S111、采用数据过滤算法对综合临床数据进行剔除处理,剔除信息缺失超过第一预设比例的异常数据项,以及丢失关键数据特征信息的非法数据项;S112、将剔除处理后的综合临床数据进行结构化处理;S113、针对结构化处理后的综合临床数据中信息缺失较少的数据项,通过K近邻插值法补充每个数据项的特征信息;所述步骤S1中,通过步骤S121~S124对五官病理图像进行预处理:S121、将每张五官病理图像,进行耳朵对象的位置和尺寸标注,最后形成耳朵积极图像集,并获取不包括耳朵对象的背景图像和噪声图像形成耳朵消极图像集;S122、将耳朵积极图像集和耳朵消极图像集作为训练集,采用特征描述器从训练集的所有图像中提取Haar特征;S123、基于提取的Haar特征,采用多个Adaboost强分类器进行耳朵分类模型训练,训练获得Haar耳朵级联分类器,并存储该分类器的模型结构和参数;S124、采用训练获得的Haar耳朵级联分类器对五官病理图像进行耳朵分割操作,获得每张五官病理图像的耳朵部位图像。3.根据权利要求2所述的基于异构特征融合的冠心病风险预测模型,其特征在于,所述步骤S2中,直接将综合临床数据的特征信息形成综合临床特征集,并对预处理所获得的所有耳朵部位图像进行特征提取及筛选,获得耳朵距离特征集、VGG耳朵特征集和冠状沟病理特征集;所述耳朵距离特征集通过步骤S211~S215提取获得:S211、基于分割获得的所有耳朵部位图像,训练一个ESR耳朵特征点检测器;S212、采用训练获得的ESR耳朵特征点检测器,提取每张耳朵部位图像的关键特征点;S213、从每张耳朵部位图像的所有关键特征点中筛选出具有代表性的耳朵关键穴位点;S214、根据每张耳朵部位图像的耳朵关键穴位点计算规范化的耳朵距离特征;S215、将所有耳朵部位图像对应的耳朵距离特征构成耳朵距离特征集;所述VGG耳朵特征集通过步骤S221~S224提取获得:S221、基于分割获得的所有耳朵部位图像,训练一个VGG耳朵特征提取器;S222、采用训练获得的VGG耳朵特征提取器,在每张耳朵部位图像的全局位置上,提取各个区域的多维局部表象特征;S223、采用NMF结合随机森林对多维局部表象特征进行降维处理;S224、将降维后的所有耳朵部位图像的局部表象特征构成VGG耳朵特征集;所述冠状沟病理特征集通过步骤S231~S235提取获得:S231、从分割获得的所有耳朵部位图像提取其冠状沟部位的Haar特征;S232、基于提取的Haar特征,采用多个Adaboost强分类器进行模型训练,训练获得对应的Haar级联冠状沟分类器,并存储该分类器的模型结构和参数;S233、采用训练获得的Haar级联冠状沟分类器对每张耳朵部位图像进行冠状沟部位的检测,得到对应的冠状沟区域;S234、采用Tamura法计算冠状沟区域的像素信息统计量,并对统计量进行分析后,获得与冠状沟纹理相关的病理特征;S235、将所有耳朵部位图像对应的与冠状沟纹理相关的病理特征构成冠状沟病理特征集。4.根据权利要求3所述的基于异构特征融合的冠心病风险预测模型,其特征在于,所述步骤S3中,通过以下方式对获得的多个特征集进行特征筛选:基...

【专利技术属性】
技术研发人员:高英罗雄文沈雄
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1