当前位置: 首页 > 专利查询>厦门大学专利>正文

一种食管癌患者免疫治疗预后生存预测方法技术

技术编号:37642544 阅读:16 留言:0更新日期:2023-05-25 10:09
本发明专利技术提供了一种食管癌患者免疫治疗预后生存预测方法,包括以下步骤:第一步:创建原始数据集,并将数据传输至数据预处理模块,进行下一步处理;第二步:对原始数据进行预处理;第三步:对预处理后的数据分析其的内在结构,找出数据的结构特征信息,并用作训练预测模型的特征数据集;第四步:将步骤三中选择的食管癌患者各个生存指标信息作为训练样本,其余作为测试样本;第五步:采用级联预测模型框架,设置模型参数,接着将训练样本数据分别输入5个学习器当中分别进行特征提取与训练;第六步:获得每个子学习器对应的预测结果;第七步:输出最终预测结果。应用本技术方案可实现有效地预测食管癌患者免疫治疗预后的三年生存状况。预测食管癌患者免疫治疗预后的三年生存状况。预测食管癌患者免疫治疗预后的三年生存状况。

【技术实现步骤摘要】
一种食管癌患者免疫治疗预后生存预测方法


[0001]本专利技术涉及癌症预后生存预测
,特别是一种食管癌患者免疫治疗预后生存预测方法。

技术介绍

[0002]近年来,随着智能医疗的发展和现代医学技术的进步,机器学习技术在疾病预测中已有广泛应用。使用机器学习构建预测模型对数据的类型和分布状态要求较低,可以同时处理分类变量和连续变量,结果简单、直观,便于临床诊断与预后分析。但是,基于机器学习和人工智能的食管癌医疗研究还处在初始发展阶段,特别是在食管癌免疫治疗预后生存预测领域。因此,在食管癌智能医疗研究中,还存在着许多亟待解决的问题,面临着诸多挑战。
[0003]食管癌病理复杂,其免疫治疗效果不仅需要考虑患者的多项体检指标、血液指标外,还要考虑到其恶性肿瘤病史,是否有局部治疗参与等因素。在实际的随访和记录的过程中,有些数据指标可能会存在记录误差或者删失、数据杂乱和数据量小等问题。因此,如何使用机器学习的智能算法在有限的预后随访数据下挖掘数据的内在规律,智能化地预测食管癌免疫治疗的预后效果是一个亟待解决的问题。
[0004]另一方面,真实世界的食管癌免疫治疗预后数据通常的特征规模较大,并且有时候会出现类别不平衡的情况。然而,在构建预测模型的时候巨大的特征维数,以及不平衡的类别数据都会严重影响模型的性能和复杂度。因此,建立适用于食管癌免疫治疗预后数据的大规模多目标进化特征提取方法,解决不平衡数据下,既要满足分类效果,又要尽可能降低特征数目的问题,是一个重要的研究方向。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种食管癌患者免疫治疗预后生存预测方法,可以有效地预测食管癌患者免疫治疗预后的三年生存状况。
[0006]为实现上述目的,本专利技术采用如下技术方案:一种食管癌患者免疫治疗预后生存预测方法,包括以下步骤:
[0007]步骤1:收集食管癌患者的基本信息、疾病信息以及免疫治疗预后随访信息,作为原始数据集,并将数据传输至数据预处理模块,进行下一步处理;
[0008]步骤2:对原始数据进行预处理,通过初步加工、处理和过滤,清除无法直接利用的指标,同时根据各个指标的缺失率进行数据删除与补齐,并且将各个指标进行归一化处理,以消除不同指标间不同维度造成的信息不一致,接着将预处理后的数据传输至特征分析和选择模块,进行下一步处理;
[0009]步骤3:对预处理后的数据分析其的内在结构,找出数据的结构特征信息,并对数据的特征信息进一步的可视化分析,获得这些特征之间的相关性;根据特征相关性的结果,首先筛选出相关性较高的特征指标,然后筛选出与预后生存显著相关并且有预测价值的特
征指标,最后基于所筛选出来的两组特征指标与特征相关性的结果进行特征选择,从中筛选出与生存状态最相关的若干个指标,确定为最终的指标体系,并用作训练预测模型的特征数据集;
[0010]步骤4:将步骤三中选择的食管癌患者各个生存指标信息作为训练样本,三年生存状态信息作为标签,输入训练模型进行训练,其中将原始数据的70%作为训练样本,其余作为测试样本;
[0011]步骤5:采用级联预测模型框架,将极度随机分类算法Exra Trees Classifier、自适应提升算法Ada Boost、支持向量机Support Vector Machine、随机森林算法Random Forest和梯度提升决策树Gradient Boosting Decision Tree5个学习器并联,组成子学习器,并且设置模型参数,接着将训练样本数据分别输入5个学习器当中分别进行特征提取与训练;
[0012]步骤6:获得每个子学习器对应的预测结果,并将五个子学习器输出的预测结果与原始数据的标签输入主学习器进行进一步训练预测,XGBoost模型作为主学习器;
[0013]步骤7:输出最终预测结果,使用测试样本数据对预测模型进行评估。
[0014]在一较佳的实施例中,步骤1中,收集接受免疫治疗的食管癌患者的一般情况信息、疾病情况信息、血液指标信息、免疫治疗情况信息和预后随访情况信息,作为原始数据集;原始数据集为92组数据;患者的基本信息包括患者的年龄、性别、五年内其他恶性肿瘤病史;所述疾病信息包括为ECOG评分、原发灶部位、疾病分期、是否寡转移、治疗前饮食、是否支持治疗;患者的血液指标信息包括:基线白细胞计数、基线中性粒细胞计数、基线单核细胞计数、基线淋巴细胞计数、基线血小板计数、基线白蛋白、基线LDH;免疫治疗情况信息分别为免疫药物、免疫治疗周期数、免疫延迟情况、是否有局部治疗参与、局部治疗范围、局部治疗时间、治疗过程中的血液指标信息;预后随访情况信息包括是否出现疾病进展和患者的三年生存状态。
[0015]在一较佳的实施例中,步骤2中,首先将具有缺失值的指标进行预处理,具体如下:(1)从原始数据集中移除缺失率大于50%的指标变量;(2)对于缺失率小于50%的指标变量,使用平均值估算法对缺失数据进行补齐;其次,在构建预测模型之前对指标变量进行归一化,使用最大值最小值归一化方法,具体而言,对于第n组样本的第z个指标变量x
n
(z),根据以下公式进行处理:
[0016][0017]其中,x

n
(z)表示归一化处理后的第n组样本的第z个指标变量。
[0018]在一较佳的实施例中,步骤3中,进行特征分析,根据已处理后的数据中的特征指标,分析各个指标之间的相关性,分别计算特征之间的相关系数,相关系数用来衡量定距变量间的线性关系;相关系数小于0.5;
[0019]进行特征选择,指的是从采集到的高维数据特征中选择最优的特征集合;使用SelectKBest特征分析法分析食管癌患者的一般情况信息、疾病情况信息、血液指标信息与预后随访情况信息中的三年生存情况的相关性,确定指标是否与生存显著相关,得到各个指标与生存状态相关性的结果,度量各个指标的重要性程度,对其进行特征选择;通过特征选择最终保留特征重要性前10的特征指标,其中包括年龄、性别、ECOG评分、疾病分期、治疗
前饮食、基线单核细胞计数、基线淋巴细胞计数、基线血小板计数、基线白蛋白及基线LDH。
[0020]在一较佳的实施例中,构建预测模型包括如下步骤:
[0021]步骤S1:获得与食管癌患者生存显著相关的10个指标;将这10个指标确定为最终的指标体系,并用作训练预测模型的特征数据集;
[0022]步骤S2:将特征数据集中随机选取的70%作为训练集对模型进行训练,原始数据集另外的30%作为测试集对模型性能进行测试;首先选取5个机器学习算法作为子学习器,分别为极度随机分类算法Exra Trees C l ass i f i er、自适应提升算法Ada Boost、支持向量机Support Vector Mach i ne、随机森林算法Random Forest和梯度提升决策树Grad i ent Boost i ng Deci s ion Tree,其中支持向量机Support本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种食管癌患者免疫治疗预后生存预测方法,其特征在于,包括以下步骤:步骤1:收集食管癌患者的基本信息、疾病信息以及免疫治疗预后随访信息,作为原始数据集,并将数据传输至数据预处理模块,进行下一步处理:步骤2:对原始数据进行预处理,通过初步加工、处理和过滤,清除无法直接利用的指标,同时根据各个指标的缺失率进行数据删除与补齐,并且将各个指标进行归一化处理,以消除不同指标间不同维度造成的信息不一致,接着将预处理后的数据传输至特征分析和选择模块,进行下一步处理;步骤3:对预处理后的数据分析其的内在结构,找出数据的结构特征信息,并对数据的特征信息进一步的可视化分析,获得这些特征之间的相关性;根据特征相关性的结果,首先筛选出相关性较高的特征指标,然后筛选出与预后生存显著相关并且有预测价值的特征指标,最后基于所筛选出来的两组特征指标与特征相关性的结果进行特征选择,从中筛选出与生存状态最相关的若干个指标,确定为最终的指标体系,并用作训练预测模型的特征数据集;步骤4:将步骤三中选择的食管癌患者各个生存指标信息作为训练样本,三年生存状态信息作为标签,输入训练模型进行训练,其中将原始数据的70%作为训练样本,其余作为测试样本;步骤5:采用级联预测模型框架,将极度随机分类算法Exra Trees Classifier、自适应提升算法Ada Boost、支持向量机Support Vector Machine、随机森林算法Random Forest和梯度提升决策树Gradient Boosting Decision Tree5个学习器并联,组成子学习器,并且设置模型参数,接着将训练样本数据分别输入5个学习器当中分别进行特征提取与训练;步骤6:获得每个子学习器对应的预测结果,并将五个子学习器输出的预测结果与原始数据的标签输入主学习器进行进一步训练预测,XGBoost模型作为主学习器;步骤7:输出最终预测结果,使用测试样本数据对预测模型进行评估。2.根据权利要求1所述的一种食管癌患者免疫治疗预后生存预测方法,其特征在于,步骤1中,收集接受免疫治疗的食管癌患者的一般情况信息、疾病情况信息、血液指标信息、免疫治疗情况信息和预后随访情况信息,作为原始数据集;原始数据集为92组数据;患者的基本信息包括患者的年龄、性别、五年内其他恶性肿瘤病史;所述疾病信息包括为ECOG评分、原发灶部位、疾病分期、是否寡转移、治疗前饮食、是否支持治疗;患者的血液指标信息包括:基线白细胞计数、基线中性粒细胞计数、基线单核细胞计数、基线淋巴细胞计数、基线血小板计数、基线白蛋白、基线LDH;免疫治疗情况信息分别为免疫药物、免疫治疗周期数、免疫延迟情况、是否有局部治疗参与、局部治疗范围、局部治疗时间、治疗过程中的血液指标信息;预后随访情况信息包括是否出现疾病进展和患者的三年生存状态。3.根据权利要求1所述的一种食管癌患者免疫治疗预后生存预测方法,其特征在于,步骤2中,首先将具有缺失值的指标进行预处理,具体如下:(1)从原始数据集中移除缺失率大于50%的指标变量;(2)对于缺失率小于50%的指标变量,使用平均值估算法对缺失数据进行补齐;其次,在构建预测模型之前对指标变量进行归一化,使用最大值最小值归一化方法,具体而言,对于第n组样本的第z个指标变量x
n
(z),根据以下公式进行处理:
其中,x

n
(z)表示归一化处理后的第n组样本的第z个指标变量。4.根据权利要求1所述的一种食管癌患者免疫治疗预后生存预测方法,其特征在于,步骤3中,进行特征分析,根据已处理后的数据中的特征指标,分析各个指标之间的相关性,分别计算特征之间的相关系数,相关系数用来衡量定距变量间的线性关系;相关系数小于0.5;进行特征选择,指的是从采集到的高维数据特征中选择最优的特征集合;使用SelectKBest特征分析法分析食管癌患者的一般情况信息、疾病情况信息、血液指标信息与预后随访情况信息中的三年生存情况的相关性,确定指标是否与生存显著相关,得到各个指标与生存状态相关性的结果,度量各个指标的重要性程度,对其进行特征选择;通过特征选择最终保留特征重要性前10的特征指标,其中包括年龄、性别、ECOG评分、疾病分期、治疗前饮食、基线单核细胞计数、基线淋巴细胞计数、基线血小板计数、基线白蛋白及基线LDH。5.根据权利要求1所述的一种食管癌患者免疫治疗预后生存预测方法,其特征在于,构建预测模型包括如下步骤:步骤S1:获得与食管癌患者生存显著相关的10个指标;将这10个指标确定为最终的指标体系,并用作训练预测模型的特征数据集;步骤S2:将特征数据集中随机选取的70%作为训练集对模型进行训练,原始数据集另外的30%作为测试集对模型性能进行测试;首先选取5个机器学习算法作为子学习器,分别为极度随机分类算法Exra Trees Classifier、自适应提升算法Ada Boost、支持向量机Support Vector Machine、随机森林算法Random Fores...

【专利技术属性】
技术研发人员:苏毓涵林勤陈忠杨晨林志阳
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1