当前位置: 首页 > 专利查询>北京大学专利>正文

基于多种机器学习算法的肺癌诊断系统技术方案

技术编号:27129474 阅读:44 留言:0更新日期:2021-01-25 19:56
本发明专利技术公开了一种基于多种机器学习算法的肺癌诊断系统,涉及医疗器械领域,所述系统包括:初步预测模块,用于利用已训练的多个肺癌预测模型分别对待诊断患者的肺部临床数据进行肺癌初步预测处理,得到多个肺癌初步预测结果;肺癌诊断模块,用于利用已训练的肺癌元分类器对所述多个肺癌初步预测结果进行肺癌分类处理,确定所述待诊断患者是否为肺癌患者。本发明专利技术可应用于临床辅助诊断肺癌的过程中,帮助临床医生进行决策,同时可通过网络平台共享给多个中心,为缺乏经验的临床医生提供诊断意见,提升临床整体的肺癌诊断水平。提升临床整体的肺癌诊断水平。提升临床整体的肺癌诊断水平。

【技术实现步骤摘要】
基于多种机器学习算法的肺癌诊断系统


[0001]本专利技术涉及医疗器械领域,尤其涉及一种基于多种机器学习算法的肺癌诊断系统。

技术介绍

[0002]肺癌的诊断主要依靠实验室辅助检查、胸部影像学检查以及病理学诊断等。因肺癌早期缺乏典型的临床症状,加之肿瘤异质性等特点,实验室辅助检查、胸部影像学检查等筛查手段都具有一定的局限性,组织病理学检查虽是肺癌诊断的金标准,但又存在有创性和操作可行性等问题,因此,肺癌的早期诊断仍是亟待攻克的难题。鉴于上述问题,许多研究者通过引入传统数学统计模型如线性回归等辅助医生进行预测和决策。目前已经有不同研究建立了多种肺癌诊断模型,如Mayo临床模型,the Department of Veterans Affairs(VA)模型和PanCan风险预测模型等。这些模型主要是基于Logistic回归分析而建立的。但Logistc回归属于传统统计学概率模型,其对数据的要求较为严格:数据缺失值少,符合线性、分布为正态分布、满足方差齐性等。而临床工作中的数据大多难以满足以上条件,同时肺癌的临床诊断数据来源较多,由患者基本信息、影像学数据、实验室数据、病理学数据等多方面组成,各个方面间因素的作用方式较为复杂,这使得传统的统计学模型在应对这种复杂的疾病时,较难建立适用性强的预测模型。

技术实现思路

[0003]为解决上述问题,本专利技术实施例提供了一种基于多种机器学习算法的肺癌诊断系统。
[0004]本专利技术实施例提供的基于多种机器学习算法的肺癌诊断系统包括:
[0005]初步预测模块,用于利用已训练的多个肺癌预测模型分别对待诊断患者的肺部临床数据进行肺癌初步预测处理,得到多个肺癌初步预测结果;
[0006]肺癌诊断模块,用于利用已训练的肺癌元分类器对所述多个肺癌初步预测结果进行肺癌分类处理,确定所述待诊断患者是否为肺癌患者。
[0007]优选地,所述系统还包括:
[0008]肺癌预测模型训练模块,用于利用用来训练肺癌预测模型的训练集,对所述多个肺癌预测模型和肺癌元分类器进行训练,得到已训练的多个肺癌预测模型和已训练的肺癌元分类器。
[0009]优选地,所述系统还包括:
[0010]训练集获取模块,用于筛选出肺癌患者和非肺癌患者的肺部临床数据,并对已筛选的肺部临床数据进行预处理,得到预处理后的肺部临床数据,从预处理后的肺部临床数据中划分出所述训练集。
[0011]优选地,所述肺部临床数据包括电子病历数据、实验室检查结果、肺部的CT影像学报告,所述训练集获取模块对所述肺部的CT影像学报告进行结构化处理,从所述肺部的CT
影像学报告中得到包括病灶所在部位、毛刺现象、是否有胸膜牵拉、结节影像学性质、结节直径的结构信息。
[0012]优选地,所述肺部临床数据包括肺癌患者和非肺癌患者的肺部诊断结果,所述训练集获取模块用于对肺癌患者和非肺癌患者的肺部诊断结果进行分类,得到分类信息。
[0013]优选地,所述训练集获取模块用于对已筛选的肺部临床数据进行编码处理,得到编码信息。
[0014]优选地,所述训练集获取模块对已筛选的肺部临床数据进行去重、异常值处理、填补缺失值等处理,得到清洗后的肺部临床数据。
[0015]优选地,所述多个肺癌预测模型包括XBGoost模型、随机森林模型、逻辑回归模型、支持向量机、多层感知机中的至少两个。
[0016]优选地,所述系统还包括:
[0017]参数调整模块,用于根据所述肺癌诊断模块确定的所述待诊断患者是否为肺癌患者的诊断结果以及所述待诊断患者的实际诊断结果,对所述多个肺癌预测模型和所述肺癌元分类器的参数进行调整。
[0018]优选地,所述肺癌元分类器是用于集成模型的Stacking模型。
[0019]本专利技术采用多维度肺部临床数据,结合多种机器学习算法和集成模型,得到诊断性能良好的肺癌预测模型,由于所采用的数据来自于临床常规检查,具有较好的临床实用性,可在一定程度上提高医生诊断肺癌的准确度,助力临床诊疗工作。
附图说明
[0020]图1是本专利技术实施例提供的基于多种机器学习算法的肺癌诊断系统的示意性结构框图;
[0021]图2是本专利技术实施例提供的基于多种机器学习算法的肺癌诊断系统的工作流程图;
[0022]图3是本专利技术实施例提供的采用Stacking的模型集成方法进行模型集成的工作原理图。
具体实施方式
[0023]以下结合附图对本专利技术的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0024]图1是本专利技术实施例提供的基于多种机器学习算法的肺癌诊断系统的示意性结构框图,如图1所示,所述系统可以包括:
[0025]初步预测模块,用于利用已训练的多个肺癌预测模型分别对待诊断患者的肺部临床数据进行肺癌初步预测处理,得到多个肺癌初步预测结果;
[0026]肺癌诊断模块,用于利用已训练的肺癌元分类器对所述多个肺癌初步预测结果进行肺癌分类处理,确定所述待诊断患者是否为肺癌患者。
[0027]机器学习方法对数据分布无线性要求,自动发现并利用相关因素之间的交互效应及非线性关系;可以充分利用有缺失的数据,无须事前对数据进行填补,更加真实地反映数据的原貌;且可通过大量随机选择样本的方法平衡样本误差的影响。因此本专利技术的多个肺
癌预测模型可以采用多个机器学习模型,例如XBGoost模型、随机森林模型、逻辑回归模型、支持向量机、多层感知机中的至少两个。所述肺癌元分类器可以是用于集成模型的Stacking模型,。
[0028]所述系统还包括:
[0029]肺癌预测模型训练模块,用于利用用来训练肺癌预测模型的训练集,对所述多个肺癌预测模型和肺癌元分类器进行训练,得到已训练的多个肺癌预测模型和已训练的肺癌元分类器。
[0030]训练集获取模块,用于筛选出肺癌患者和非肺癌患者的肺部临床数据,并对已筛选的肺部临床数据进行预处理,得到预处理后的肺部临床数据,从预处理后的肺部临床数据中划分出所述训练集。
[0031]所述预处理可以包括对肺部临床数据进行数据结构化处理,例如,所述训练集获取模块对所述肺部的CT影像学报告进行结构化处理,从所述肺部的CT影像学报告中得到包括病灶所在部位、毛刺现象、是否有胸膜牵拉、结节影像学性质、结节直径的结构信息。
[0032]所述预处理可以包括对肺部临床数据进行分类处理,例如,所述肺部临床数据包括肺癌患者和非肺癌患者的肺部诊断结果,所述训练集获取模块用于对肺癌患者和非肺癌患者的肺部诊断结果进行分类,得到分类信息。
[0033]所述预处理可以包括对肺部临床数据进行标准化处理,例如其中,所述训练集获取模块对已筛选的肺部临床数据进行编码处理,得到编码信息。
[0034]所述预处理可以包括对肺部临床数据进行清洗处理,例如,所述训练集获取模块对已筛选的肺部临床数据进行去重、异常值处理、填补缺失值等处理,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多种机器学习算法的肺癌诊断系统,其特征在于,所述系统包括:初步预测模块,用于利用已训练的多个肺癌预测模型分别对待诊断患者的肺部临床数据进行肺癌初步预测处理,得到多个肺癌初步预测结果;肺癌诊断模块,用于利用已训练的肺癌元分类器对所述多个肺癌初步预测结果进行肺癌分类处理,确定所述待诊断患者是否为肺癌患者。2.根据权利要求1所述的系统,其特征在于,所述系统还包括:肺癌预测模型训练模块,用于利用用来训练肺癌预测模型的训练集,对所述多个肺癌预测模型和肺癌元分类器进行训练,得到已训练的多个肺癌预测模型和已训练的肺癌元分类器。3.根据权利要求2所述的系统,其特征在于,所述系统还包括:训练集获取模块,用于筛选出肺癌患者和非肺癌患者的肺部临床数据,并对已筛选的肺部临床数据进行预处理,得到预处理后的肺部临床数据,从预处理后的肺部临床数据中划分出所述训练集。4.根据权利要求3所述的系统,其特征在于,所述肺部临床数据包括电子病历数据、实验室检查结果、肺部的CT影像学报告,所述训练集获取模块对所述肺部的CT影像学报告进行结构化处理,从所述肺部的CT影像学报告中得到包括病灶所在部位、毛刺现象、是...

【专利技术属性】
技术研发人员:闫存玲崔斌韦仁杰杨明钰白杨李志艳
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1