当前位置: 首页 > 专利查询>浙江大学专利>正文

非小细胞肺癌集成预后预测模型及其构建方法、装置和应用制造方法及图纸

技术编号:29590825 阅读:64 留言:0更新日期:2021-08-06 19:51
本发明专利技术公开了一种非小细胞肺癌集成预后预测模型及其构建方法、装置和应用,首先,通过数据平衡训练数据集训练得到最初的基预后预测模型;然后,通过主动采样机制,基于所选择的查询策略,在每一次迭代中选取一组包含信息最多的未标注样本,标注后加入到训练集中,重新训练基预后预测模型;之后,通过从基预后预测模型池中选择一组预测性能最佳的基预后预测模型作为集成预后预测模型的基础。此外,多次随机初始化训练数据集及K折验证集设置,增加集成预后预测模型的稳定性和泛化能力。依据此来解决数据不平衡问题导致的模型性能下降问题,进而提高集成预后预测模型的鲁棒性。

【技术实现步骤摘要】
非小细胞肺癌集成预后预测模型及其构建方法、装置和应用
本专利技术属于医疗数据挖掘领域,特别涉及癌症预后预测方面,具体为一种非小细胞肺癌集成预后预测模型及其构建方法、装置和应用。
技术介绍
肺癌(Lungcancer)是肺部的恶性肿瘤,是指由肺组织细胞异常生长,并可能侵袭邻近组织器官,是指转移扩散到身体其他部位的疾病。常见症状有咳嗽、咳血、体重减轻、气短和胸痛等。肺癌根据其组织病理分型,可大致分为非小细胞肺癌(NSCLC,Non-smallcelllungcancer)和小细胞肺癌(SCLC,Smallcelllungcancer)。其中,非小细胞肺癌大约占全部肺癌患者的85%,且其5年相对存活率仅有23.3%,已经成为我国社会医疗的重大负担。近年来,随着精准医学的不断发展,大量新的治疗措施不断涌现,相应的临床证据也为医生在进行治疗方案决策时提供了强有力的证据支撑。除了癌症本身的一些特征,癌症的分期,患者的既往诊疗历史等,癌症的预后在复杂的多学科治疗方案选择过程中起到越来越重的作用。特别地,对于术后的非小细胞肺癌患者,癌症的复发可能发生在手术之后的任意时间,并且将会严重威胁患者的生命。因此,精准的预后预测,能够优化临床实践中的决策,例如个性化的随访方案、后续治疗的时机和方式等,从而使患者能够接受最为合适的管理,进而提升他们的生存质量甚至延长他们的生存期。在这一背景下,许多研究采用各种机器学习和数据挖掘方法,利用大量临床、影像、组学数据,构建各种预后预测模型。理论上,构建一个典型的预后预测模型,首先需要确定一个时间段,然后来判断患者从接受手术之后的这一时间段中是否发生复发、死亡等结局事件;然后将这些结局事件作为目标,采用合适的监督学习算法,构建预后预测模型。尽管这些模型能够从历史数据中学习到一些不平凡的知识,并且展现了良好的预测性能,但是,数据不平衡问题依然是构建高鲁棒性预后预测模型所要面临的主要问题。针对我们的数据,仅有7.6%的患者在术后一年内复发,而一年内死亡的患者更少,仅有4.6%。尽管数据不平衡问题会随着时间的延长而在一定程度上得以缓解,但依然会使得中短期预后预测模型偏向于多数类样本,从而影响模型预测性能。因此,迫切需要一种训练方法来解决数据不平衡导致预后预测模型鲁棒性低的问题。
技术实现思路
鉴于上述,为解决现有预后预测方法处理不平衡数据时性能下降的问题,本专利技术提供一种非小细胞肺癌集成预后预测模型及其构建方法、装置和应用,得到高鲁棒性的预后预测模型。第一方面,本专利技术实施例提供了一种非小细胞肺癌集成预后预测模型的构建方法,包括以下步骤:(1)将原始数据集按K折交叉验证机制分割成K个子集,并从K个子集中选择1个子集作为验证集Ddev,其余子集合并成训练数据池Dpool;(2)根据预定义的训练集样本个数Ninit,针对每个类别,从训练数据池Dpool中抽取Ninit/2个样本组成训练数据集Dtrain,并从训练数据池Dpool中移除组成训练数据集Dtrain的样本;(3)根据训练数据集Dtrain,基于有监督分类算法构建基预后预测模型,并利用验证集Ddev对基预后预测模型进行验证评估,将得到的评估值和基预后预测模型存入基预后预测模型池Pool;(4)根据步骤(3)得到的预后预测模型,选择查询策略从训练数据池Dpool中主动采样包含信息最多的Nbatch个样本,将这Nbatch个样本添加到训练数据集Dtrain中,并从训练数据池Dpool中移除Nbatch个样本;(5)根据步骤(4)得到的新训练数据集Dtrain、训练数据池Dpool和验证集Ddev,重复步骤(3)和步骤(4),直到训练数据池Dpool中的样本不足Nbatch个为止;(6)从步骤(5)迭代结束后得到的基预后预测模型池Pool中选择Nens个评估值最高的基预后预测模型,用于构建集成预后预测模型;(7)根据步骤(1)得到的训练数据池Dpool,重复步骤(2)重新采样得到新训练数据集Dtrain,并重复步骤(3)到步骤(6)T次;(8)从步骤(1)得到的K个子集中选取1个未做过验证集的子集作为新的验证集Ddev,其余子集合并成新的训练数据池Dpool,根据新的验证集Ddev、新的训练数据池Dpool,重复步骤(2)到(7)K次,最终得到K×T×Nens个基预后预测模型,将这些预后预测模型的平均作为集成预后预测模型。一个实施例中,步骤(1)中,采用分层K折交叉验机制来进行数据分割。一个实施例中,步骤(3)中,采用的有监督分类算法包括支持向量机、神经网络、逻辑回归、决策树、朴素贝叶斯。一个实施例中,步骤(3)中,基于有监督分类算法构建基预后预测模型时,以训练数据集Dtrain中预测对象的基础信息、临床数据以及术后癌症分期作为输入数据,以预后情况作为学习标签对有监督分类算法进行优化学习,以构建基预后预测模型。一个实施例中,步骤(4)中,采用的查询策略包括基于不确定度的查询策略、基于不一致的查询策略、基于信息密度的查询策略。一个实施例中,步骤(8)中,采用不同的随机种子采集子集作为验证集,确保得到的新验证集和新训练数据池与原始验证集和训练数据池不同。第二方面,本专利技术实施例提供的一种非小细胞肺癌集成预后预测模型的构建装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的非小细胞肺癌集成预后预测模型的构建方法。第三方面,本专利技术实施例提供的一种非小细胞肺癌集成预后预测模型,所述集成预后预测模型由第一方面所述的基于主动采样的非小细胞肺癌集成预后预测模型的构建方法构建得到。第四方面,本专利技术实施例提供的一种基于主动采样的非小细胞肺癌集成预后预测方法,所述非小细胞肺癌集成预后预测方法采用第三方面所述的非小细胞肺癌集成预后预测模型进行预测。上述实施例提供的技术方案具有的有益效果至少包括:首先,通过数据平衡训练数据集训练得到最初的基预后预测模型;然后,通过主动采样机制,基于所选择的查询策略,在每一次迭代中选取一组包含信息最多的未标注样本,标注后加入到训练集中,重新训练基预后预测模型;之后,通过从基预后预测模型池中选择一组预测性能最佳的基预后预测模型作为集成预后预测模型的基础。此外,多次随机初始化训练数据集及K折验证集设置,增加集成预后预测模型的稳定性和泛化能力。依据此来解决数据不平衡问题导致的模型性能下降问题,进而提高集成预后预测模型的鲁棒性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。图1是基于主动采样的非小细胞肺癌集成预后预测模型的构建方法的流程图。具体实施方式为使本专利技术的目的、本文档来自技高网
...

【技术保护点】
1.一种非小细胞肺癌集成预后预测模型的构建方法,其特征在于,包括以下步骤:/n(1)将原始数据集按K折交叉验证机制分割成K个子集,并从K个子集中选择1个子集作为验证集D

【技术特征摘要】
1.一种非小细胞肺癌集成预后预测模型的构建方法,其特征在于,包括以下步骤:
(1)将原始数据集按K折交叉验证机制分割成K个子集,并从K个子集中选择1个子集作为验证集Ddev,其余子集合并成训练数据池Dpool;
(2)根据预定义的训练集样本个数Ninit,针对每个类别,从训练数据池Dpool中抽取Ninit/2个样本组成训练数据集Dtrain,并从训练数据池Dpool中移除组成训练数据集Dtrain的样本;
(3)根据训练数据集Dtrain,基于有监督分类算法构建基预后预测模型,并利用验证集Ddev对基预后预测模型进行验证评估,将得到的评估值和基预后预测模型存入基预后预测模型池Pool;
(4)根据步骤(3)得到的预后预测模型,选择查询策略从训练数据池Dpool中主动采样包含信息最多的Nbatch个样本,将这Nbatch个样本添加到训练数据集Dtrain中,并从训练数据池Dpool中移除Nbatch个样本;
(5)根据步骤(4)得到的新训练数据集Dtrain、训练数据池Dpool和验证集Ddev,重复步骤(3)和步骤(4),直到训练数据池Dpool中的样本不足Nbatch个为止;
(6)从步骤(5)迭代结束后得到的基预后预测模型池Pool中选择Nens个评估值最高的基预后预测模型,用于构建集成预后预测模型;
(7)根据步骤(1)得到的训练数据池Dpool,重复步骤(2)重新采样得到新训练数据集Dtrain,并重复步骤(3)到步骤(6)T次;
(8)从步骤(1)得到的K个子集中选取1个未做过验证集的子集作为新的验证集Ddev,其余子集合并成新的训练数据池Dpool,根据新的验证集Ddev、新的训练数据池Dpool,重复步骤(2)到(7)K次,最终得到K×T×Nens个基预后预测模型,将这些预后预测模型的平均作为集成预后预测模型。


2.如权利要求...

【专利技术属性】
技术研发人员:吕旭东胡丹青段会龙
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1