结肠癌预后风险模型构建方法、装置、设备及存储介质制造方法及图纸

技术编号:39409022 阅读:7 留言:0更新日期:2023-11-19 16:00
本发明专利技术公开了一种结肠癌预后风险模型构建方法、装置、设备及存储介质,其中方法包括:利用结肠癌样品的转录组基因信息和表型信息构建基因表达列表,再对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并构建预后风险模型,再根据目标基因的基因表达值和预后风险模型计算得到风险分数,再根据风险分数对样品进行预后风险高低分组,再利用多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证,并当目标基因是独立的预后因素时,确认预后风险模型构建完成。本发明专利技术通过对预后风险模型包括的目标基因独立因素分析,以提高构建的预后风险模型的可靠性。性。性。

【技术实现步骤摘要】
结肠癌预后风险模型构建方法、装置、设备及存储介质


[0001]本申请涉及生物医药
,特别是涉及一种结肠癌预后风险模型构建方法、装置、设备及存储介质。

技术介绍

[0002]结肠癌是发病率及死亡率均较高的实体肿瘤之一,中期结肠癌患者5年生存率不足60%,晚期结肠癌患者5年生存率几乎为0。由于结肠癌早期无明显特异性的临床症状,且缺乏早期诊断的分子标志物,大部分患者确诊时已经进入中晚期阶段,随着诊断水平的提高和靶向治疗技术的进步,人们越来越关注指示效果显著的结肠癌分子靶标,目前常见的标志物为DNA,RNA等。
[0003]目前,虽然手术切除、化疗、放疗、靶向治疗等常规治疗降低了结直肠癌患者的死亡率,但转移仍是大多数结直肠癌患者死亡的主要原因。此外,由于个体的异质性,不同患者的临床结果差异很大,这限制了传统治疗方法的有效性。随着多元组学技术的迅速发展,基于基因表达的预后模型已经成为筛查具有不同临床病理风险癌症患者的重要生物标志物。但是,现有的预后模型并未进行独立因素分析,模型的可靠性较低。

技术实现思路

[0004]有鉴于此,本申请提供一种结肠癌预后风险模型构建方法、装置、设备及存储介质,以解决现有结肠癌预后模型可靠性低的问题。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种结肠癌预后风险模型构建方法,其包括:从数据库中下载样品的转录组基因信息和表型信息;预处理转录组基因信息和表型信息以构建基因表达列表;对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以目标基因构建预后风险模型;从转录组基因信息提取每个样品的目标基因的基因表达值,并输入至预后风险模型计算得到每个样品的风险分数;确认风险分数的最佳截断值,并根据最佳截断值将所有样品进行预后风险高低分组;从表型信息中选取多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证,并当目标基因是独立的预后因素时,确认预后风险模型构建完成。
[0006]作为本申请的进一步改进,预处理转录组基因信息和表型信息以构建基因表达列表,包括:将所有样品的样品名称和EnsembID注释信息拼接得到第一列表,并筛选第一列表中的重复基因,将重复基因的基因表达值的平均值作为重复基因的最终基因表达值;对第一列表进行log2逆转换,得到第二列表;从表型信息中获取预先指定的表型信息,并与第二列表拼接,生成第三列表,预先指定的表型信息包括癌组织和癌旁组织。
[0007]作为本申请的进一步改进,对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以目标基因构建预后风险模型,包括:对第三列表进行差异性分析,筛选得到在预先指定的表型信息之间存在显著差异性的第一
基因组,并利用第一基因组构建第四列表;将第四列表进行log2转换,得到第五列表;从表型信息提取临床随访信息,并与第五列表拼接生成第六列表,临床随访信息包括总生存期和总生存时间;对第六列表进行单因素Cox回归分析,筛选得到与临床预后结果显著相关的第二基因组;对第二基因组和临床随访信息进行lasso分析,筛选得到第三基因组;对第三基因组进行多因素Cox回归分析,筛选得到目标基因和模型参数,并根据目标基因和模型参数构建预后风险模型。
[0008]作为本申请的进一步改进,确认风险分数的最佳截断值,并根据最佳截断值将所有样品进行预后风险高低分组,包括:利用R语言包中的maxstat计算风险分数的最佳截断值;将风险分数高于最佳截断值的样品标记为高风险,且将风险分数低于最佳截断值的样品标记为低风险,得到预后风险高低分组。
[0009]作为本申请的进一步改进,根据最佳截断值将所有样品进行预后风险高低分组之后,还包括:基于预后风险高低分组利用survivalROC对预后风险模型进行性能评估。
[0010]作为本申请的进一步改进,从表型信息中选取多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证,包括:利用survival软件包中的coxph函数对多个预先指定的临床相关信息和预后风险高低分组进行独立预后因素验证,得到表征独立预后因素的P值,且当P值低于预设阈值时,目标基因为独立预后因素。
[0011]作为本申请的进一步改进,确认预后风险模型构建完成之后,还包括:获取患者的目标基因的当前基因表达值;将当前基因表达值输入至预后风险模型,得到当前风险分值;根据当前风险分值和最佳截断值确认患者得结肠癌的风险高低。
[0012]为解决上述技术问题,本申请采用的又一个技术方案是:提供一种结肠癌预后风险模型构建装置,其包括:数据下载模块,用于从数据库中下载样品的转录组基因信息和表型信息;预处理模块,用于预处理转录组基因信息和表型信息以构建基因表达列表;模型构建模块,用于对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以目标基因构建预后风险模型;计算模块,用于从转录组基因信息提取每个样品的目标基因的基因表达值,并输入至预后风险模型计算得到每个样品的风险分数;风险分组模块,用于确认风险分数的最佳截断值,并根据最佳截断值将所有样品进行预后风险高低分组;独立因素分析模块,用于从表型信息中选取多个预先指定的临床相关信息,并结合预后风险高低分组对目标基因进行独立预后因素验证,并当目标基因是独立的预后因素时,确认预后风险模型构建完成。
[0013]为解决上述技术问题,本申请采用的再一个技术方案是:提供一种计算机设备,所述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如上述任一项的结肠癌预后风险模型构建方法的步骤。
[0014]为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有能够实现上述任一项的结肠癌预后风险模型构建方法的程序指令。
[0015]本申请的有益效果是:本申请的结肠癌预后风险模型构建方法通过从数据库中下载的大量的样品的转录组基因信息和表型信息,再对转录组基因信息和表型信息进行数据预处理,得到样品的基因表达列表,再对基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析以筛选目标基因,并构建预后风险模型,再对将每个样
品的目标基因的基因表达值所构成的矩阵输入至预后风险模型,得到每个样品的风险分数,根据风险分数和样品对应的临床相关信息进行独立预后因素验证,且当确认目标基因为独立的预后因素时,确认预后风险模型构建完成,其一方面利用大量的样品数据进行模型构建,样品数据充足,构建的预后风险模型预测效果更好,并且,在构建预后风险模型后,对预后风险模型包括的目标基因进行独立预后因素验证,确保目标基因是独立的预后因素,进而提高预后风险模型的可靠性。
附图说明
[0016]图1是本专利技术实施例的结肠癌预后风险模型构建方法的一流程示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结肠癌预后风险模型构建方法,其特征在于,其包括:从数据库中下载样品的转录组基因信息和表型信息;预处理所述转录组基因信息和表型信息以构建基因表达列表;对所述基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以所述目标基因构建预后风险模型;从所述转录组基因信息提取每个样品的所述目标基因的基因表达值,并输入至所述预后风险模型计算得到每个样品的风险分数;确认所述风险分数的最佳截断值,并根据所述最佳截断值将所有样品进行预后风险高低分组;从所述表型信息中选取多个预先指定的临床相关信息,并结合所述预后风险高低分组对所述目标基因进行独立预后因素验证,并当所述目标基因是独立的预后因素时,确认所述预后风险模型构建完成。2.根据权利要求1所述的结肠癌预后风险模型构建方法,其特征在于,所述预处理所述转录组基因信息和表型信息以构建基因表达列表,包括:将所有样品的样品名称和EnsembID注释信息拼接得到第一列表,并筛选所述第一列表中的重复基因,将所述重复基因的基因表达值的平均值作为所述重复基因的最终基因表达值;对所述第一列表进行log2逆转换,得到第二列表;从所述表型信息中获取预先指定的表型信息,并与所述第二列表拼接,生成所述第三列表,所述预先指定的表型信息包括癌组织和癌旁组织。3.根据权利要求2所述的结肠癌预后风险模型构建方法,其特征在于,所述对所述基因表达列表进行差异性分析、单因素Cox回归分析、lasso分析、多因素Cox回归分析筛选目标基因,并以所述目标基因构建预后风险模型,包括:对所述第三列表进行差异性分析,筛选得到在所述预先指定的表型信息之间存在显著差异性的第一基因组,并利用所述第一基因组构建第四列表;将所述第四列表进行log2转换,得到第五列表;从所述表型信息提取临床随访信息,并与所述第五列表拼接生成第六列表,所述临床随访信息包括总生存期和总生存时间;对所述第六列表进行单因素Cox回归分析,筛选得到与临床预后结果显著相关的第二基因组;对所述第二基因组和所述临床随访信息进行lasso分析,筛选得到第三基因组;对所述第三基因组进行多因素Cox回归分析,筛选得到目标基因和模型参数,并根据目标基因和模型参数构建预后风险模型。4.根据权利要求1所述的结肠癌预后风险模型构建方法,其特征在于,所述确认所述风险分数的最佳截断值,并根据所述最佳截断值将所有样品进行预后风险高低分组,包括:利用R语言包中的maxstat计算所述风险分数的最佳截断值;将所述风险分数高于所述最佳截断值的样品标记为高风险...

【专利技术属性】
技术研发人员:陆亚平魏启浩高翔李彬
申请(专利权)人:国药集团基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1