跨粒度智能化疾病筛查方法及系统技术方案

技术编号:19426526 阅读:15 留言:0更新日期:2018-11-14 10:50
本发明专利技术提供一种跨粒度智能化疾病筛查方法及系统,用以提升疾病筛查的全面性和准确率。该方法包括:建立多层疾病筛查模型,每一层疾病筛查模型的分类粒度不同;根据目标检查报告,依次调用每一层的疾病筛查模型,得到每一层的疾病筛查模型输出的疾病分类结果。

【技术实现步骤摘要】
跨粒度智能化疾病筛查方法及系统
本专利技术涉及医疗
,具体地,涉及一种跨粒度智能化疾病筛查方法及系统。
技术介绍
传统上对癌症(例如胃癌,乳腺癌等)的诊断和筛查依靠医生对病历以及检查报告的分析。而由于日趋沉重的工作压力、冗长的病历和检查报告,对医生的工作效率产生较大的影响,以及癌症的诊断筛查工作本身的难度和基层医生自身专业水平的限制,导致对癌症的筛查存在较高的误诊率和漏诊率。随着近年来人工智能技术的进步,数据驱动的分析研究逐渐成为临床和生物学领域癌症相关研究的有力支持和补充,使得疾病的筛查逐渐趋向智能化。例如,相关技术中运用集成学习方法,分析了超过140万名糖尿病患者的数据,在检测视网膜病变(DR)的易感性方面具有很高的准确性,同时,解决了视网膜病筛查依从性低的问题。又例如,相关技术针对心脏病移植手术移植物存活率与预测变量的研究,使用了加权平均集成结合多个模型的预测结果,提高了模型的预测性能,取得了较好的效果。但是,相关技术对于集成方法本身并没有进行改进,导致对模型预测性能的提升是不可控的,本领域技术人员对于如何进一步提高疾病筛查准确率未做进一步考虑。
技术实现思路
本专利技术实施例提供一种跨粒度智能化疾病筛查方法及系统,用以提升疾病筛查的全面性和准确率。为了实现上述目的,本专利技术第一方面提供一种跨粒度智能化疾病筛查方法,所述方法包括:建立多层疾病筛查模型,每一层疾病筛查模型的分类粒度不同;根据目标检查报告,依次调用每一层的疾病筛查模型,得到每一层的疾病筛查模型输出的疾病分类结果。可选地,采用如下方法建立每一层的疾病筛查模型:对检查报告进行后结构化处理,得到本层分类粒度对应的样本数据集;根据所述样本数据集进行个体分类模型的训练,得到多个同质分类模型;至少对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成,以得到一疾病筛查模型。可选地,所述对检查报告进行后结构化处理,得到本层分类粒度对应的样本数据集包括:以所述检查报告中的病理检查报告为准,对所述检查报告进行数据整合;对整合后的检查报告进行特征提取,得到具有代表性以及区分度的目标数据项;对所述目标数据项进行数值化表示,得到所述样本数据集。可选地,所述根据所述样本数据集进行个体分类模型的训练,得到多个同质分类模型,包括:将所述样本数据集按照预设比例划分为训练数据集和测试数据集;从所述训练数据集中采样得到k份互有交叉的采样数据集,k为大于1的正整数,其中,具体的采样方式可以是有放回的采样,使得采样数据集大小和原数据集大小相同;采用同一机器学习算法,分别在所述k份训练数据集上进行模型的训练和校验,得到k个同质分类模型。可选地,所述至少对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成,以得到一疾病筛查模型,包括:确定所述多个同质分类模型的权重组合集合;分别计算在所述权重组合集合中的每一权重组合下,集成模型的性能评估值;将所述集成模型的最优性能评估值对应的权重组合作为最优权重组合,并使用所述最优权重组合对所述多个同质分类模型进行加权集成。可选地,所述确定所述多个同质分类模型的权重组合集合,包括:在预设的权重精度ε下遍历所有的权重组合,得到所有权重组合的集合为Wn,k,其中,所述权重组合集合包含组权重组合,其中n=1/ε=10p,p为正整数;所述方法还包括:通过如下第一公式表示所述集成模型F(x):其中,k为同质分类模型的个数,fi表示第i个分类模型,wi表示第i个分类模型的权重,wi∈(0,1),且F(x)的输出为样本隶属于正类的概率,即判断为发生癌变的置信度;通过如下第二公式评价所述集成模型的性能:其中,TestData为测试数据集,Q(F(x))表示集成模型F(x)在测试数据集上AUC值。可选地,所述方法应用于对胃癌进行筛查,所述检查报告包括病理检查报告以及胃镜检查报告。本专利技术第二方面一种跨粒度智能化疾病筛查系统,包括:模型建立模块,用于建立多层疾病筛查模型,每一层疾病筛查模型的分类粒度不同;模型调用模块,用于根据目标检查报告,依次调用每一层的疾病筛查模型,得到每一层的疾病筛查模型输出的疾病分类结果。可选地,所述模型建立模块包括:后结构化处理子模块,用于对检查报告进行后结构化处理,得到每一层分类粒度对应的样本数据集;模型训练子模块,用于根据所述样本数据集进行个体分类模型的训练,得到多个同质分类模型;模型选定子模块,用于至少对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成,以得到每一层的疾病筛查模型。可选地,所述后结构化处理子模块包括:数据整合子模块,用于以所述检查报告中的病理检查报告为准,对所述检查报告进行数据整合;特征提取子模块,用于对整合后的检查报告进行特征提取,得到具有代表性以及区分度的目标数据项;数值化处理子模块,用于对所述目标数据项进行数值化表示,得到所述样本数据集。可选地,所述模型训练子模块包括:数据划分子模块,用于将所述样本数据集按照预设比例划分为训练数据集和测试数据集;采样子模块,用于从所述训练数据集中采样得到k份互有交叉的采样数据集,k为大于1的正整数;训练子模块,用于采用同一机器学习算法,分别在所述k份训练数据集上进行模型的训练和校验,得到k个同质分类模型。可选地,所述模型选定子模块包括:权重组合确定子模块,用于确定所述多个同质分类模型的权重组合集合;性能评估子模块,用于分别计算在所述权重组合集合中的每一权重组合下,集成模型的性能评估值;加权集成子模块,用于将所述集成模型的最优性能评估值对应的权重组合作为最优权重组合,并使用所述最优权重组合对所述多个同质分类模型进行加权集成。采用上述技术方案,至少能够达到如下技术效果:本专利技术在建立疾病筛查模型时,针对不同疾病分类粒度,建立多层筛查模型,例如,第一层粒度可以为:癌、无癌,第二层粒度针对癌或无癌进行细分,如癌细分的粒度包括鳞癌、腺癌、细胞癌等等,无癌细分的粒度包括炎症、瘤、息肉、溃疡等等。这样,针对某一新的病例,通过依次调用每一层的疾病筛查模型,可以首先判断是否发生癌变(即第一层粒度),再判断下一细分类别(即第二层粒度),如对于癌变的,分别判断有无鳞癌、有无腺癌等,提升了筛查的全面性以及准确率。更进一步地,本专利技术可以采用一种最优赋权的加权集成方法(OWIA,OptimalWeightedIntegratedApproach),确保加权平均集成的过程中所使用的权重组合是最优的,能够最大化的提升模型的性能,相比现有技术中对模型预测性能的提升是不可控的,本专利技术提供的技术方案能够可控的提升疾病筛查模型的性能,进一步提高疾病筛查的准确率。本专利技术的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术,但并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例提供的一种跨粒度智能化疾病筛查方法的流程示意图;图2为本专利技术实施例提供的一种疾病筛查模型的构建方法的流程示意图。图3为本专利技术实施例提供的另一种跨粒度智能化疾病筛查方法的流程示意图;图4为本专利技术实施例提供的一种跨粒度智能化疾病筛查系统的结构示意图;图5为本专利技术实施例提供的另一种跨粒度智能化疾病筛查本文档来自技高网...

【技术保护点】
1.一种跨粒度智能化疾病筛查方法,其特征在于,所述方法包括:建立多层疾病筛查模型,每一层疾病筛查模型的分类粒度不同;根据目标检查报告,依次调用每一层的疾病筛查模型,得到每一层的疾病筛查模型输出的疾病分类结果。

【技术特征摘要】
1.一种跨粒度智能化疾病筛查方法,其特征在于,所述方法包括:建立多层疾病筛查模型,每一层疾病筛查模型的分类粒度不同;根据目标检查报告,依次调用每一层的疾病筛查模型,得到每一层的疾病筛查模型输出的疾病分类结果。2.根据权利要求1所述的方法,其特征在于,采用如下方法建立每一层的疾病筛查模型:对检查报告进行后结构化处理,得到本层分类粒度对应的样本数据集;根据所述样本数据集进行个体分类模型的训练,得到多个同质分类模型;至少对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成,以得到一疾病筛查模型。3.根据权利要求2所述的方法,其特征在于,所述对检查报告进行后结构化处理,得到本层分类粒度对应的样本数据集包括:以所述检查报告中的病理检查报告为准,对所述检查报告进行数据整合;对整合后的检查报告进行特征提取,得到具有代表性以及区分度的目标数据项;对所述目标数据项进行数值化表示,得到所述样本数据集。4.根据权利要求2所述的方法,其特征在于,所述根据所述样本数据集进行个体分类模型的训练,得到多个同质分类模型,包括:将所述样本数据集按照预设比例划分为训练数据集和测试数据集;从所述训练数据集中采样得到k份互有交叉的采样数据集,k为大于1的正整数;采用同一机器学习算法,分别在所述k份训练数据集上进行模型的训练和校验,得到k个同质分类模型。5.根据权利要求2至4中任一项所述的方法,其特征在于,所述至少对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成,以得到一疾病筛查模型,包括:确定所述多个同质分类模型的权重组合集合;分别计算在所述权重组合集合中的每一权重组合下,集成模型的性能评估值;将所述集成模型的最优性能评估值对应的权重组合作为最优权重组合,并使用所述最优权重组合对所述多个同质分类模型进行加权集成。6.根据权利要求5所述的方法,其特征在于,所述确定所述多个同质分类模型的权重组合集合,包括:在预设的权重精度ε下遍历所有的权重组合,得到所有权重组合的集合为Wn,k,其中,所述权重组合集...

【专利技术属性】
技术研发人员:丁帅胡世康杨善林
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1