当前位置: 首页 > 专利查询>清华大学专利>正文

利用血浆游离核酸检测癌症的深度学习方法和系统技术方案

技术编号:28496349 阅读:27 留言:0更新日期:2021-05-19 22:30
本发明专利技术公开了一种利用血浆游离核酸检测癌症的深度学习方法和系统,其中,方法包括以下步骤:通过使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,从而达到富集分子分辨率级别的信息的效果;使用深度学习模型整合核酸分子的序列信息以及甲基化信息从而达成精确的核酸分子来源预测;通过计算最大后验概率的方式估计血浆中来自癌症的核酸序列片段占比,从而起到癌症的非侵入式辅助诊断的效果。将本发明专利技术的方法应用于癌症检测中,能够在非常低深度的测序数据上达到稳定的预测效果,从而在降低检测成本的同时保证足够的灵敏性与准确性。够的灵敏性与准确性。够的灵敏性与准确性。

【技术实现步骤摘要】
利用血浆游离核酸检测癌症的深度学习方法和系统


[0001]本专利技术涉及生物信息与医疗
,特别涉及一种利用血浆游离核酸检测癌症的深度学习方法和系统。

技术介绍

[0002]在生物体内,伴随着细胞凋亡等过程,细胞内的DNA片段会被释放到血浆中成为游离DNA(cell

free DNA,简称cfDNA)。在癌症发生早期,当患者还未表现出明显的临床症状时,细胞内DNA的状态就已经发生了变化,这些DNA被释放到血浆中,使得血浆cfDNA蕴含了与癌症相关的信息。通过对这些信息进行提取和处理,即可对癌症进行非侵入式诊断,实现癌症的早诊早治。
[0003]目前癌症cfDNA相关研究的主流思路是利用cfDNA上与癌症相关的单基因或少数基因的突变推断癌症的发生。然而,cfDNA本质上是一个信噪比较低的混合信号,在癌症发生早期癌cfDNA比例极低,影响基因突变的检出率;此外,由于癌症突变的异质性很强,不同的个体发生突变的位点很可能不同,限制了该技术的进一步应用。此外,对cfDNA片段的整体性质进行统计和分析,例如拷贝数变异,片段化本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种利用血浆游离核酸检测癌症的深度学习方法,其特征在于,包括以下步骤:使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,并从所述差异甲基化区间筛选得到富集分子分辨率级别的信息;使用深度学习模型整合所述信息中核酸分子的序列信息和甲基化信息,并根据整合后的信息预测核酸分子来源;以及计算所述核酸分子来源的最大后验概率,根据所述最大后验概率估计血浆中来自癌症的核酸序列片段占比,以根据所述占比确定癌症的风险结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述占比确定癌症的风险结果,包括:将所述占比作为似然值,根据所述似然值计算得到置信参数;当所述置信参数最大时,将所述占比作为癌症的风险参数,以确定癌症的风险结果。3.根据权利要求2所述的方法,其特征在于,所述置信参数为:其中,n为DNA片段的数量,p
i
表示使用深度学习模型估计第i条DNA片段来自于癌细胞的预测值,预测值与健康细胞的概率值为1

p
i
,r为所述占比;所述风险参数为:4.根据权利要求1所述的方法,其特征在于,还包括:截掉训练集中每条序列第一段前预设部分和第二段预设数量碱基,并选用双核苷酸位点数大于等于预设值的单条读段,其中,训练集中健康血浆中DNA片段为第一标签、癌症实体瘤DNA片段为第二标签;将每一个碱基转换成one

hot编码,并将DNA片段的甲基化信息转变成甲基化向量,根据两个所述甲基化向量拼接得到输入矩阵,以根据所述输入矩阵训练得到所述深度学习模型。5.根据权利要求1所述的方法,其特征在于,所述使用核酸分子级别分辨率的甲基化状态数据定义癌症特异的差异甲基化区间,包括:从待测区间中获取健康血浆样本和癌症实体瘤样本;分别从所述健康血浆样本和所述癌症实体瘤样本中取出所有测序得到的DNA片段,以分别计算所述健康血浆样本和所述癌症实体瘤样本的甲基化率;当所述健康血浆样本和所述癌症实体瘤样本之间的最大或最小甲基化率的差值大于差异阈值时,确定所述待测区间为所述差异甲基化区间。...

【专利技术属性】
技术研发人员:汪小我李嘉琦魏磊
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1