System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于突变签名的疾病风险预测模型构建方法及分析方法技术_技高网

基于突变签名的疾病风险预测模型构建方法及分析方法技术

技术编号:40014272 阅读:6 留言:0更新日期:2024-01-16 15:45
本发明专利技术涉及生物基因技术领域,提供了一种基于突变签名的疾病风险预测模型构建方法及分析方法。其中,基于突变签名的疾病风险预测模型构建方法,包括:获取第一训练数据,第一训练数据包括多个患者的突变签名数据,突变签名数据中包括至少一个突变签名和各突变签名对应的突变签名活性值;根据第一训练数据对第一疾病风险预测模型进行训练,得到第二疾病风险预测模型;将第一训练数据输入至第二疾病风险预测模型,得到各患者对应的突变类型;根据各突变类型,对第二疾病风险预测模型进行调整,得到第三疾病风险预测模型。通过本发明专利技术,提高模型的泛化性能,使得第三疾病风险预测模型预测疾病风险的准确性更高。

【技术实现步骤摘要】

本专利技术涉及生物基因,尤其涉及一种基于突变签名的疾病风险预测模型构建方法及分析方法


技术介绍

1、对于大多数癌症来说,癌细胞转移是癌症疾病进展和死亡的主要原因。研究表明,近90%的癌症死亡是由癌细胞转移引起的。癌症基因组易发生大量突变和重排,表现出基因组的不稳定性和异质性。这些变异调节细胞生长、分化、存活和迁移相关的基因的表达和功能。癌症相关发病率和死亡率的主要原因是转移性扩散,即癌细胞通过血液或淋巴管从原发部位扩散到身体的其他部位。这个过程通常需要细胞应激源和环境冲击,从而引起癌细胞基因组的剧烈变化。这些变化可以赋予癌细胞适应性优势,例如增强侵袭性和对治疗的抵抗力。因此,确定患者肿瘤是原位癌还是转移癌对于制定有效的预防和治疗癌症的策略至关重要。

2、个体在其一生中会由于各种遗传因素和环境因素而出现体细胞突变。这些体细胞突变可以发生在基因组的任何部分,并可能对基因的功能和调控产生不同的影响。虽然大多数体细胞突变是中性的,并以被动方式增加,但有些基因组上的变化会改变dna序列上的调控和功能,导致细胞表现出异常的表型。在关键调控基因中积累体细胞突变可能会导致疾病的发展,如癌症等等。因此,现有技术中,通过研究体细胞突变,解密肿瘤发生发育阶段,分析肿瘤是原位癌还是转移癌。

3、突变签名指的是dna中的异常体细胞突变的表现形式,包括单碱基替换(single-base substitutions,sbs)、双碱基替换(double base substitution,dbs)、小片段插入和缺失(insertion-deletion,id)等。近年来,突变签名为疾病风险预测提供了依据,可以通过突变签名预测个体中癌细胞属于原位癌还是转移癌。现有技术中,通过建立预测模型以区分原位或转移,但是现有的预测模型在不同的数据集来源上性能表现不佳,预测结果准确性较低。


技术实现思路

1、为提高疾病风险预测的准确性,本专利技术提出了一种基于突变签名的疾病风险预测模型构建方法及分析方法。

2、第一方面,本专利技术提供了一种基于突变签名的疾病风险预测模型构建方法,方法包括:

3、获取第一训练数据,第一训练数据包括多个患者的突变签名数据,突变签名数据中包括至少一个突变签名和各突变签名对应的突变签名活性值;

4、根据第一训练数据对第一疾病风险预测模型进行训练,得到第二疾病风险预测模型;

5、将第一训练数据输入至第二疾病风险预测模型,得到各患者对应的突变类型;

6、根据各突变类型,对第二疾病风险预测模型进行调整,得到第三疾病风险预测模型。

7、通过上述方法,首先利用第一训练数据进行初始模型的训练,得到第二疾病风险预测模型,然后利用第一训练数据和第二疾病风险预测模型得到的突变类型对第二疾病风险预测模型进行进一步的调整,得到最终的疾病风险预测模型,即第三疾病风险预测模型,根据预测结果对疾病风险预测模型进一步调整,提高模型的泛化性能,使得第三疾病风险预测模型预测疾病风险的准确性更高。

8、在一种可选的实施方式中,根据各突变类型,对第二疾病风险预测模型进行调整,得到第三疾病风险预测模型,包括:

9、计算第一训练数据中各突变签名与各突变类型之间的相关性;

10、根据各相关性对第一训练数据中的各突变签名进行筛选,得到第二训练数据,第二训练数据中包括筛选后的突变签名,以及在第一训练数据中筛选后的突变签名对应的突变签名活性值;

11、根据第二训练数据对第二疾病风险预测模型进行训练,得到第三疾病风险预测模型。

12、通过上述实施方式,利用突变签名与预测结果突变类型的相关性,对突变签名进行筛选,将与预测结果突变类型相关性更高的突变签名作为筛选后的突变签名,根据筛选后的突变签名及其对应的突变签名活性值进一步训练第二疾病风险预测模型,使得到的第三疾病风险预测模型对于疾病风险的预测准确性更高。

13、在一种可选的实施方式中,相关性通过互信息表征,根据各相关性对第一训练数据中的各突变签名进行筛选,得到第二训练数据,包括:

14、根据第一训练数据中各突变签名与各突变类型之间的互信息,在各突变签名中删除第一预设比例的突变签名,得到筛选后的突变签名;

15、将筛选后的突变签名,以及在第一训练数据中筛选后的突变签名对应的突变签名活性值作为第二训练数据。

16、通过上述实施方式,将第一训练数据中各突变签名与各突变类型之间的相关性通过互信息表征,根据互信息删除预设比例的突变签名,获取与预测结果相关性更高的突变签名。

17、在一种可选的实施方式中,第二疾病风险预测模型为全连接神经网络模型,全连接神经网络模型中包括多个神经元,根据第二训练数据对第二疾病风险预测模型进行训练,得到第三疾病风险预测模型,包括:

18、获取第二疾病风险预测模型中各神经元之间的权重值;

19、根据各权重值,删除第二预设比例的权重,得到筛选后的权重;

20、根据各权重,对第二疾病风险预测模型进行调整,得到第四疾病风险预测模型;

21、根据第二训练数据对第四疾病风险预测模型进行训练,得到第三疾病风险预测模型。

22、通过上述实施方式,通过第二疾病风险预测模型中各神经元之间的权重值,对第二疾病风险预测模型中各神经元的权重进行筛选,通过去除不重要的权重来减小模型、降低模型的复杂性,以此来提高模型的泛化能力,使得调整后的疾病风险预测模型对于疾病风险预测的准确性更高,可以准确预测癌症患者是原位癌还是转移癌。

23、第二方面,本专利技术还提供了一种基于突变签名的疾病风险分析方法,该方法包括:

24、获取患者的多个第一突变签名,以及各第一突变签名对应的突变签名活性值;

25、将各突变签名活性值输入至疾病风险预测模型中,预测患者的突变类型,疾病风险预测模型是通过第一方面或第一方面的任一实施方式的基于突变签名的疾病风险预测模型构建方法得到的。

26、通过上述方法,通过疾病风险预测模型预测患者的疾病风险,可以准确分析患者是原位癌或转移癌,为患者下一步的治疗提供依据。

27、在一种可选的实施方式中,该方法还包括:

28、获取患者的多个基因;

29、计算各基因与各第一突变签名的累积贡献丰度值,累积贡献丰度值表征基因对第一突变签名的贡献度。

30、通过上述实施方式,将基因与突变签名相结合,通过基因与突变签名的累积贡献丰度值表征基因对于突变签名的贡献程度,将患者的致病机理与基因相关联,可以更加直观的分析基因、突变标签与预测得到的突变类型的关联性。

31、在一种可选的实施方式中,计算各基因与各第一突变签名的累积贡献丰度值,包括:

32、计算突变类型与各第一突变签名之间的相关性;

33、根据各相关性筛选各第一突变签名,得到至少一个第二突变签名;

34本文档来自技高网...

【技术保护点】

1.一种基于突变签名的疾病风险预测模型构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据各所述突变类型,对所述第二疾病风险预测模型进行调整,得到第三疾病风险预测模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述相关性通过互信息表征,所述根据各所述相关性对所述第一训练数据中的各突变签名进行筛选,得到第二训练数据,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述第二疾病风险预测模型为全连接神经网络模型,所述全连接神经网络模型中包括多个神经元,所述根据所述第二训练数据对所述第二疾病风险预测模型进行训练,得到所述第三疾病风险预测模型,包括:

5.一种基于突变签名的疾病风险分析方法,其特征在于,所述方法包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,计算各所述基因与各所述第一突变签名的累积贡献丰度值,包括:

8.根据权利要求7所述的方法,其特征在于,计算所述基因与所述第二突变签名之间的累积贡献丰度值,包括:

9.根据权利要求8所述的方法,其特征在于,所述方法还包括:

10.根据权利要求9所述的方法,其特征在于,根据所述累积贡献丰度值,确定各所述第二突变签名对应的基因,包括:

...

【技术特征摘要】

1.一种基于突变签名的疾病风险预测模型构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据各所述突变类型,对所述第二疾病风险预测模型进行调整,得到第三疾病风险预测模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述相关性通过互信息表征,所述根据各所述相关性对所述第一训练数据中的各突变签名进行筛选,得到第二训练数据,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述第二疾病风险预测模型为全连接神经网络模型,所述全连接神经网络模型中包括多个神经元,所述根据所述第二训练数据对所述第二疾病风险预测模型进行训练,得到所述第...

【专利技术属性】
技术研发人员:濮梦辰郑炜圣李晓荣樊可悦田凯
申请(专利权)人:北京望石智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1