一种早期NSCLC预后预测系统技术方案

技术编号:26602340 阅读:30 留言:0更新日期:2020-12-04 21:25
本发明专利技术公开了一种早期NSCLC预后预测系统,包括主效应识别模块、交互作用识别模块、生存时间预测模块和高维人群甄别模块,通过建立样本数据库以及分子生物标志物——甲基化和基因表达,从跨组学角度提升了模型预测精度,且区别于传统生物标志物,稳定、微创,大大提高预后预测的敏感性和特异性,并将主效应、GxE、GxG交互作用整合,构建预测精度较高、有严格多阶段独立人群验证的早期NSCLC生存预测模型,解决现有模型中预测效果不佳的不足,并结合高危人群甄别模块,甄别出不同风险的人群,科学准确地评估疾病预后,帮助临床医生临床决策或指导辅助治疗,早期干预,早期获益。

【技术实现步骤摘要】
一种早期NSCLC预后预测系统
本专利技术涉及基因工程和肿瘤医学
,具体为一种早期NSCLC预后预测系统。
技术介绍
肺癌位居全球癌症死因的首位,一个准确的预后预测模型可以帮助临床医生临床决策或指导辅助治疗;尽管病人宏观临床信息和肿瘤特征已被普遍用作有效预测指标,但越来越多的证据表明,分子生物标记物可以提供早期预警信号;原因在于,即便当肿瘤大小不能被检测到时(<0.01cm3),肿瘤细胞亦可发生转移,并出现某些生物标记物的异常;因此,一个包括遗传和外在非遗传因素的预后预测模型,在临床应用中,是十分有价值的。目前虽已有部分研究针对早期NSCLC建立预后预测模型,但其预测效果不佳(AUC<0.8),且样本量较小;其原因可能在于:(1)组学数据类型局限:基于组学数据,已有研究提出了与肺癌预后相关的生物标志物,包括DNA甲基化,基因表达,microRNA和长链非编码RNA等;然而,大多数研究仅限于单一组学,这导致预后预测模型精度不够理想;(2)考虑信息不全:目前几乎无大规模的研究,纳入基因-环境(GxE)、基因-基因(GxG)交互作用信息构建癌症预后预测模型。因此,有必要在早期NSCLC预后预测领域,需要一种早期NSCLC预后预测系统,以指导临床决策。
技术实现思路
本专利技术提供一种非单一类型预测因子、综合考虑主效应和交互作用的预测模型早期NSCLC预后预测系统,可以有效解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种早期NSCLC预后预测模型,包括:数据清洗模块,用于收集和清理样本数据,其中,数据类型包括甲基化数据和基因表达数据,并进行甲基化与基因表达的全基因组质控;主效应识别模块,主效应识别模块与数据清洗模块相连,用于对筛选对于预后有主效应的预测因子;交互作用识别模块,交互作用识别模块与数据清洗模块相连,用于筛选对于预后有交互效应的预测因子;生存时间预测模块,所述生存时间预测模块分别与数据清洗模块、主效应识别模块和交互作用识别模块相连,构建生存预测模型,用于预测患者三年和五年的生存概率,生存预测模型为:Hazard(3year)=baselinebazard(3year)×exp(β1X1+...βiXi);其中,等式的右边是模型的具体函数,左边表示预测概率,βi表示模型的系数,baselinehazard为基线风险,对应于所有变量都取值为0时的风险;高危人群甄别模块,高危人群甄别模块与生存时间预测模块相连,用于区分个体预后风险,包括高危、中危和低危。具体的,所述数据清洗模块收集样本数据的具体方法为,以标准操作程序采集符合标准的血液或组织样本,系统收集完整的人口学随访资料和临床资料,并采用基因组芯片扫描以获取疾病相关的甲基化和基因表达谱,建立统一标准的样本数据库。具体的,所述数据清洗模块对收集的数据进行甲基化与基因表达的全基因组质控的方法为,利用高密度甲基化和基因表达探针,筛选与早期NSCLC预后有阳性关联的甲基化和基因表达,对于甲基化数据,使用IlluminaInfiniumHumanMethylation450BeadChips分析DNA甲基化,将原始图像数据导入GenomeStudio甲基化模块V1.8,以计算甲基化信号,并执行归一化、背景扣除和质量控制,对于基因表达数据,包括TCGA数据和GEO数据,进行mRNA测序数据处理和质量控制,使用RNA测序通过期望最大化将原始计数标准化,并从TCGA数据网站下载了Level-3基因定量数,进一步质量控制。具体的,对于甲基化数据的质量控制的不合格标准为:(1)>5%的样品中检测失败(P>0.05);(2)变异系数(CV)<5%,(3)所有样品甲基化或者未甲基化;(4)位于探针序列或10bp侧翼区域的常见单核苷酸多态性;(5)交叉反应位点;(6)数据未在所有中心通过QC,其中在剔除具有>5%的样品中检测失败样品后,进一步的处理,包括:分位数标准化、一型和二型探针校正和批次效应校正;对于基因表达数据,GEO基因表达数据包括GSE29013、GSE30219、GSE31210、GSE31546,并在分析前进行了log2转化,各个中心内进行了标准化,继而进行批次效应校正。具体的,在主效应识别模块中,内置迭代确定性独立筛选算法,筛选阳性主效应的分子生物标记物。具体的,在交互作用识别模块中,利用穷举式检索并内置并行算法,从全表观基因组GxE交互作用角度,筛选早期NSCLC预后的预测因子cg14326354,从GxG交互作用角度,筛选早期NSCLC预后的预测因子。一种利用早期NSCLC预后预测模型的系统,该系统包括软件应用模块和与试剂盒,所述软件应用模块包括输入模块、计算模块和输出模块,试剂盒和输入模块相连,该试剂盒包括早期NSCLC患者基因信息和随访信息,输入模块用于向计算模块传递试剂盒的信息,计算模块内置生存预测模型,并根据此模型,以及输入模块中的信息,计算个体预后得分,输出模块,与计算模块相连,用于计算生存概率。具体的,患者的信息包括性别、年龄、吸烟状态、肿瘤亚型、肿瘤分期以及一系列基因组学信息。具体的,在高危人群甄别模块中,当生存概率≤0.4时,为高危;当生存概率>0.4且≤0.8时为中危;而当生存概率>0.8时,为低危。与现有技术相比,本专利技术的有益效果:1、通过以标准操作程序采集符合标准的血液或组织样本,建立样本数据库,以及分子生物标志物——甲基化和基因表达,从跨组学角度提升了模型预测精度,且区别于传统生物标志物,稳定、微创,大大提高预后预测的敏感性和特异性,并将主效应、GxE、GxG交互作用整合,构建预测精度较高、有严格多阶段独立人群验证的早期NSCLC生存预测模型,解决现有模型中预测效果不佳的不足,并结合高危人群甄别模块,甄别出不同风险的人群,科学准确地评估疾病预后,帮助临床医生临床决策或指导辅助治疗,早期干预,早期获益。2、本专利技术在数据清洗模块中,采用基因组芯片扫描以获取疾病相关的甲基化和基因表达谱,并以大样本进行验证且以敏感性分析验证其结果的稳健性,从而加速和保证了生物标志物和预后模型在临床上的应用,同时也为其他疾病生物标志物的研制方法提供了方法上和策略上的借鉴。3、本专利技术在主效应识别模块和交互作用识别模块中,通过迭代确定性独立筛选算法,以高效数据降维的统计方法,以及计算机并行运算的方法,更为高效、快捷地识别预测因子,构建预后预测平台。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术预后预测系统的框图;图2是不同评分分组的病人的生存曲线图;图3是本专利技术3年生存预测ROC曲线图;图4是本专利技术5年生存预测ROC曲线图;图5是本专利技术列线图。具体实施本文档来自技高网...

【技术保护点】
1.一种早期NSCLC预后预测模型,其特征在于,包括:/n数据清洗模块,用于收集和清理样本数据,其中,数据类型包括甲基化数据和基因表达数据,并进行甲基化与基因表达的全基因组质控;/n主效应识别模块,主效应识别模块与数据清洗模块相连,用于对筛选对于预后有主效应的预测因子;/n交互作用识别模块,交互作用识别模块与数据清洗模块相连,用于筛选对于预后有交互效应的预测因子;/n生存时间预测模块,所述生存时间预测模块分别与数据清洗模块、主效应识别模块和交互作用识别模块相连,构建生存预测模型,用于预测患者三年和五年的生存概率,生存预测模型为:/nHazard(3year)=baseline bazard(3year)×exp(β

【技术特征摘要】
1.一种早期NSCLC预后预测模型,其特征在于,包括:
数据清洗模块,用于收集和清理样本数据,其中,数据类型包括甲基化数据和基因表达数据,并进行甲基化与基因表达的全基因组质控;
主效应识别模块,主效应识别模块与数据清洗模块相连,用于对筛选对于预后有主效应的预测因子;
交互作用识别模块,交互作用识别模块与数据清洗模块相连,用于筛选对于预后有交互效应的预测因子;
生存时间预测模块,所述生存时间预测模块分别与数据清洗模块、主效应识别模块和交互作用识别模块相连,构建生存预测模型,用于预测患者三年和五年的生存概率,生存预测模型为:
Hazard(3year)=baselinebazard(3year)×exp(β1X1+...βiXi);
其中,等式的右边是模型的具体函数,左边表示预测概率,βi表示模型的系数,baselinehazard为基线风险,对应于所有变量都取值为0时的风险;
高危人群甄别模块,高危人群甄别模块与生存时间预测模块相连,用于区分个体预后风险,包括高危、中危和低危。


2.根据权利要求1所述的一种早期NSCLC预后预测模型,其特征在于:所述数据清洗模块收集样本数据的具体方法为,以标准操作程序采集符合标准的血液或组织样本,系统收集完整的人口学随访资料和临床资料,并采用基因组芯片扫描以获取疾病相关的甲基化和基因表达谱,建立统一标准的样本数据库。


3.根据权利要求1所述的一种早期NSCLC预后预测模型,其特征在于:所述数据清洗模块对收集的数据进行甲基化与基因表达的全基因组质控的方法为,利用高密度甲基化和基因表达探针,筛选与早期NSCLC预后有阳性关联的甲基化和基因表达,对于甲基化数据,使用IlluminaInfiniumHumanMethylation450BeadChips分析DNA甲基化,将原始图像数据导入GenomeStudio甲基化模块V1.8,以计算甲基化信号,并执行归一化、背景扣除和质量控制,对于基因表达数据,包括TCGA数据和GEO数据,进行mRNA测序数据处理和质量控制,使用RNA测序通过期望最大化将原始计数标准化,并从TCGA数据网站下载了Level-3基因定量数,进一步质量控制。

【专利技术属性】
技术研发人员:张汝阳魏永越陈峰陈超沈思鹏赵杨林丽娟董学思陈家进
申请(专利权)人:南京医科大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1