System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 早发性结直肠癌预测模型的构建方法及应用技术_技高网

早发性结直肠癌预测模型的构建方法及应用技术

技术编号:40903580 阅读:4 留言:0更新日期:2024-04-18 14:35
本发明专利技术公开了早发性结直肠癌预测模型的构建方法及应用,涉及结直肠癌症预测技术领域,其技术要点为:包括以下步骤:S1、数据获取;S2、数据预处理;S3、差异基因分析;S4、数据分割;S5、Boruta特征筛选;S6、随机森林建模;S7、模型验证。本发明专利技术成功挖掘了早发性结直肠癌患者与正常人群之间的重要差异基因,并利用随机森林的机器学习模型对结直肠癌转录组数据进行训练,从而建立了一种可以应用于临床的早发性结直肠癌基因预测模型。该预测方法将有助于临床医生评估早发性结直肠癌,为高风险人群提供有力的预防手段与早期干预措施。可为临床实践提供有力的支持,有助于提高结直肠癌患者的早期检测和治疗。

【技术实现步骤摘要】

本专利技术涉及结直肠癌症预测,具体涉及早发性结直肠癌预测模型的构建方法及应用


技术介绍

1、结直肠癌(crc)是一种源于结肠或直肠内的恶性肿瘤,通常起源于肠黏膜的内层细胞。根据世界卫生组织国际癌症研究机构(iarc)发布的2020年全球最新癌症负担数据显示,结直肠癌(crc)目前居全球发病谱第3位和死因谱第2位,分别占癌症发病和死亡总数的9.7%和9.4%。在中国,crc发病率跃居第二位,死亡率居第五位。

2、结直肠根据发病年龄可分为早发性(通常是50岁以下)和晚发性(通常是50岁以上)。尽管晚发性结直肠癌依然占患者总数的大部分,但近年来早发性结直肠的发病率有所上升。在中国,早发性crc的发病率为6.4/10万人,年百分比变化为0.4%。

3、早发性结肠癌有着独特的组织学和分子特征,相比于晚发性结直肠癌,早发性结直肠癌的预后更差。根据2010年~2018年结直肠癌诊断数据显示,早发性结直肠癌更容易出现远端转移。在早发性结直肠癌中,有21.9%患者出现了远端转移,31.3%的患者已出现扩散或淋巴结转移,而在50岁以上的人群中,这个数据仅为16.4%和27.3%。此外,早发性结直肠癌的组织学分类多为印戒细胞癌,导致了此类患者的5年生存率更低。并且早发性结直肠癌患者拥有更显著比例的致病性遗传突变。除了与lynch综合征和息肉综合征相关的遗传变异外,在早发性结直肠癌患者中还发现多种非结直肠癌致病变异。

4、早期结直肠癌没有明显的症状,当癌症发展到一定程度时,可出现腹痛、血便、排便习惯改变和体重减轻的症状。传统的结直肠癌诊断依赖于肠镜检查,在给患者造成痛苦体验的同时还存在着漏诊和误诊的风险。

5、为此,本专利技术旨在提供一种早发性结直肠癌预测模型的构建方法及应用,以解决上述问题。


技术实现思路

1、本专利技术的目的是为了解决上述问题,提供早发性结直肠癌预测模型的构建方法及应用,本专利技术的方案充分挖掘了早发性结直肠癌患者与正常人群之间的差异基因,并利用随机森林模型进行训练,从而建立了一种可以应用于临床的早发性结直肠癌的预测模型。该预测模型有助于临床医生评估早发性结直肠癌,为高风险人群提供有力的预防手段与早期干预措施,可为临床实践提供有力的支持,有助于提高结直肠癌患者的早期检测和治疗。

2、为了达到上述目的,本专利技术的技术方案如下:

3、本专利技术提供了早发性结直肠癌预测模型的构建方法,其特征是:包括以下步骤:

4、s1、数据获取:

5、收集结肠腺癌和直肠癌的转录组表达矩阵以及临床数据;

6、s2、数据预处理:

7、根据临床数据,将小于等于50岁的肿瘤样本与全年龄阶段的正常组织样本进行组合,构建出一张新的表达矩阵;

8、s3、差异基因分析:

9、载入“deseq2”r包进行差异基因分析;

10、s4、数据分割:

11、设置随机种子并将差异基因数据分割出20%样本作为独立测试集,剩余的80%样本作为训练集,数据用于后续boruta特征筛选以及模型训练;

12、s5、boruta特征筛选:

13、载入“boruta”r包对差异基因进行重要特征筛选,得到重要基因特征数据;

14、s6、随机森林模型建立和参数调整:

15、将筛选出的重要特征基因在80%训练集样本中提取表达矩阵,使用五折交叉验证训练机器学习模型,并且调整参数获得最佳模型,即构建得早发性结直肠癌预测模型;

16、s7、模型验证:

17、将最佳模型作为最终输出结果,在20%测试集进行独立验证,测试模型性能。

18、进一步地,步骤s3中,差异基因分析的筛选过程中logfc=2,padj=0.05。

19、进一步地,步骤s5中,将“boruta”r包重复载入100次并设置阈值p<0.001,分别筛选出67个重要特征基因。

20、进一步地,步骤s6中,机器学习模型选择为随机森林。

21、进一步地,步骤s7中进行模型验证后的模型保存为.pkl形式。

22、本专利技术还提供了上述所述的早发性结直肠癌预测模型的构建方法的应用,将所述方法构建得早发性结直肠癌预测模型用于早发性结直肠癌评估预测。

23、本专利技术解决技术问题的难度及意义在于:

24、由于早期结直肠癌没有明显的症状,当癌症发展到一定程度时,可出现腹痛、血便、排便习惯改变和体重减轻的症状。目前,传统的结直肠癌诊断通常是依赖于肠镜检查,该诊断手段在给患者造成痛苦体验的同时还存在着漏诊和误诊的风险。因此,本专利技术的方案研究基于特异性基因进行模型预测的方法,不仅有望提高结直肠癌的诊断准确性,更有助于早发性结直肠癌发病的风险评估,这将推动精准诊断和个体化治疗的发展。

25、与现有技术相比,本方案的有益效果:

26、1、本专利技术的方法充分挖掘了早发性结直肠癌患者与正常人群之间的差异基因,并利用随机森林模型进行训练,从而建立了一种可以应用于临床的早发性结直肠癌基因预测模型;

27、2、通过本专利技术方法构建的早发性结直肠癌基因预测模型,能够有助于临床医生评估早发性结直肠癌,为高风险人群提供有力的预防手段与早期干预措施,可为临床实践提供有力的支持,有助于提高结直肠癌患者的早期检测和治疗。

本文档来自技高网...

【技术保护点】

1.早发性结直肠癌预测模型的构建方法,其特征是:包括以下步骤:

2.如权利要求1所述的早发性结直肠癌预测模型的构建方法,其特征是:步骤S3中,差异基因分析的筛选过程中logFC=2,padj=0.05。

3.如权利要求2所述的早发性结直肠癌预测模型的构建方法,其特征是:步骤S5中,将“Boruta”R包重复载入100次并设置阈值p<0.001,分别筛选出67个重要特征基因。

4.如权利要求3所述的早发性结直肠癌预测模型的构建方法,其特征是:步骤S6中,机器学习模型选择为随机森林。

5.如权利要求1所述的早发性结直肠癌预测模型的构建方法,其特征是:步骤S7中进行模型验证后的模型保存为.pkl形式。

6.如权利要求1-5任一项所述的早发性结直肠癌预测模型的构建方法,其特征是:将所述方法构建得早发性结直肠癌预测模型用于早发性结直肠癌评估预测。

【技术特征摘要】

1.早发性结直肠癌预测模型的构建方法,其特征是:包括以下步骤:

2.如权利要求1所述的早发性结直肠癌预测模型的构建方法,其特征是:步骤s3中,差异基因分析的筛选过程中logfc=2,padj=0.05。

3.如权利要求2所述的早发性结直肠癌预测模型的构建方法,其特征是:步骤s5中,将“boruta”r包重复载入100次并设置阈值p<0.001,分别筛选出67个重要特征基因。...

【专利技术属性】
技术研发人员:顾婧澜黎晓逸焦娜
申请(专利权)人:浙江大学医学院附属儿童医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1