【技术实现步骤摘要】
联合病理表型特征的DNA甲基化水平谱预测方法及系统
[0001]本专利技术属于计算机
,尤其涉及一种联合病理表型特征的DNA甲基化水平谱预测方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]DNA甲基化是细胞中最常见的表观遗传修饰之一,在细胞分化、细胞身份维持、基因印记和肿瘤发生中起到至关重要的作用;其参与了许多癌症相关的基因表达调控,因此可被用来分析进行癌症药物设计。然而DNA甲基化测序成本昂贵,尤其对于亚硫酸氢盐全基因组甲基化测序而言。
[0004]临床常规检验中,病理染色切片制作成本低;而且组织病理学的变化体现了癌症患者的肿瘤发展演化情况,因此组织病理切片被作为临床诊断和预后的金标准。近年来很多研究从数字病理切片表型分析分子层面,如基因突变等;揭示了癌症患者数字病理切片表型特征与基因层面分子模式的相关性。
[0005]但是,目前的研究存在以下问题:
[0006]关注基因突变、拷贝数变异、RNA转录表达等分子 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:根据数字病理切片数据,得到数字病理切片数据的肿瘤区域细胞核特征谱;根据患者的DNA甲基化原始测序数据,得到所有CpG位点甲基化水平矩阵;基于所有CpG位点甲基化水平矩阵和患者临床信息,确定癌症组织样本、正常组织样本以及癌症样本患者的临床诊断分期,进行差异甲基化CpG位点分析,得到肿瘤差异CpG位点甲基化水平谱和肿瘤分期差异CpG位点甲基化水平谱;以数字病理切片数据的肿瘤区域细胞核特征谱为输入,以该肿瘤差异CpG位点甲基化水平谱和该肿瘤分期差异CpG位点甲基化水平谱为输出,训练生成式模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述得到数字病理切片数据的肿瘤区域细胞核特征谱的过程包括:对数字病理切片数据进行背景过滤,提取组织区域;基于组织区域,提取肿瘤区域;对肿瘤区域进行细胞核实例化分割,得到所有细胞核;基于所有细胞核,提取所有细胞核的局部特征和全局特征,构建数字病理切片数据的肿瘤区域细胞核特征谱。3.根据权利要求1所述的模型训练方法,其特征在于,所述得到所有CpG位点甲基化水平矩阵的过程包括:对患者的DNA甲基化原始测序数据进行质控及预处理,得到第一DNA甲基化原始测序数据;将第一DNA甲基化原始测序数据与参考基因组序列进行比对,并进行排序及索引,得到第二DNA甲基化原始测序数据;计算第二DNA甲基化原始测序数据的甲基化水平,得到所有CpG位点甲基化水平矩阵。4.根据权利要求1所述的模型训练方法,其特征在于,所述差异甲基化CpG位点确定原则为:平均甲基化水平差异绝对值大于0.2且修正p值,得到的差异甲基化CpG位点包含超甲基化CpG位点和低甲基化CpG位点。5.根据权利要求1所述的模型训练方法,其特征在于,所述训练生成式模型的过程包括:以数字病理切片数据的肿瘤区域细胞核特征谱为输入,得到特征嵌入;将特征嵌入进行变换,得到输出结果;基于输出结果、该肿瘤差异CpG位点甲基化水平谱和该肿瘤分期差异CpG位点甲基化水平谱,构建损失,优化生成式模型的参数。6.一种模型训练系统,其特征在于,包括:第一数据处理模块,其被配置为:根据数字病理切片数据,得到数字病理切片数据的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。