具有噪声区域过滤的甲基化片段概率噪声模型制造技术

技术编号:41716079 阅读:22 留言:0更新日期:2024-06-19 12:43
公开了用于训练癌症分类器的系统和方法。方法包括针对包括多个甲基化序列读段的每个训练样本:对于每个甲基化序列读段,将多个基因组区域中与甲基化序列读段重叠的基因组区域所对应的概率噪声模型应用于甲基化序列读段来确定异常得分,异常得分指示在健康样本中观察到甲基化模式的似然值。每个概率噪声模型使用来自健康样本的甲基化序列读段进行训练。方法包括基于与异常得分低于阈值异常得分的基因组区域重叠的甲基化序列读段的计数,确定包括每个基因组区域的特征的特征向量。方法包括使用训练样本的特征向量,训练癌症分类器以基于输入特征向量来确定癌症预测。

【技术实现步骤摘要】
【国外来华专利技术】

本公开整体涉及使用甲基化信息来对核酸片段进行分类的模型。


技术介绍

1、使用下一代测序(ngs)来分析循环中的细胞游离核苷酸,诸如细胞游离dna(cfdna)或细胞游离rna(cfrna),被认为是用于检测和诊断癌症或其他疾病的宝贵工具。使用ngs来标识指示癌症的罕见变异需要对生物样本(诸如组织活检或从受试者身上抽取的血液)的核苷酸序列进行深度测序。从血液样本中检测源自肿瘤细胞的dna很困难,因为循环肿瘤dna(ctdna)或循环肿瘤rna(ctrna)相对于从血液中提取的cfdna中的其他分子通常以较低的水平存在。现有方法无法从信号噪声中标识真阳性(例如,指示受试者患有癌症),这削弱了已知和未来系统区分真阳性和由噪声源引起的假阳性的能力,从而可能导致变异检出(variant calling)或其他类型的分析结果不可靠。此外,在样本制备和测序期间引入的错误可能使得准确标识罕见变异变得困难。

2、已开发了许多不同的方法来检测测序数据中的变异,诸如单核苷酸变异(snv)。大多数常规方法已被开发用于从组织样本中获得的dna测序数据中检出变异。这些方法本文档来自技高网...

【技术保护点】

1.一种用于训练癌症分类器的方法,所述方法包括:

2.根据权利要求1所述的方法,其中训练所述概率噪声模型包括:

3.根据权利要求2所述的方法,其中所述后验分布是β二项分布。

4.根据权利要求1-3中任一项所述的方法,其中通过针对每个甲基化序列读段训练的概率噪声模型来确定的所述异常得分基于针对所述甲基化序列读段的p值,所述p值指示所述甲基化序列读段被异常甲基化的概率。

5.根据权利要求4所述的方法,其中针对每个甲基化序列读段的所述异常得分是针对所述甲基化序列读段的所述p值。

6.根据权利要求4所述的方法,其中针对每个甲基化序列读段...

【技术特征摘要】
【国外来华专利技术】

1.一种用于训练癌症分类器的方法,所述方法包括:

2.根据权利要求1所述的方法,其中训练所述概率噪声模型包括:

3.根据权利要求2所述的方法,其中所述后验分布是β二项分布。

4.根据权利要求1-3中任一项所述的方法,其中通过针对每个甲基化序列读段训练的概率噪声模型来确定的所述异常得分基于针对所述甲基化序列读段的p值,所述p值指示所述甲基化序列读段被异常甲基化的概率。

5.根据权利要求4所述的方法,其中针对每个甲基化序列读段的所述异常得分是针对所述甲基化序列读段的所述p值。

6.根据权利要求4所述的方法,其中针对每个甲基化序列读段的所述异常得分通过向针对所述甲基化序列读段所确定的所述p值应用变换来确定。

7.根据权利要求5所述的方法,其中所述变换是对数函数或非线性函数。

8.根据权利要求1-7中任一项所述的方法,其中所述多个基因组区域中的第一基因组区域与第一均值和第一离差相关联,并且其中所述多个基因组区域中的第二基因组区域与第二均值和第二离差相关联,所述第二均值和所述第二离差分别与所述第一均值和所述第一离差不同。

9.根据权利要求1-7中任一项所述的方法,其中所述多个基因组区域中的第一基因组区域包括第一数目的cpg位点,并且所述多个基因组区域中的所述第二基因组区域包括第二数目的cpg位点,所述第二数目的cpg位点不同于所述第一数目的cpg位点。

10.根据权利要求1-7中任一项所述的方法,还包括:

11.根据权利要求10所述的方法,其中所述癌症预测估计所述测试样本的肿瘤分数。

12.根据权利要求10-11中任一项所述的方法,其中所述癌症预测指示在所述测试样本中存在疾病状态。

13.根据权利要求12所述的方法,其中所述疾病状态选自由以下项组成的组:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂尿路上皮癌、尿路上皮以外的肾癌、前列腺癌、肛门直肠癌、结直肠癌、食管癌、胃癌、肝细胞引起的肝胆癌、肝细胞以外的细胞引起的肝胆癌、胰腺癌、上消化道鳞状细胞癌、鳞状癌以外的上消化道癌、头颈癌、肺癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌和腺癌或小细胞肺癌以外的癌症、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病以及其他血液病。

14.根据权利要求10-13中任一项所述的方法,其中所述癌症预测指示所述测试样本中存在的癌症的分期。

15.根据权利要求1-14中任一项所述的方法,其中所述甲基化序列读段包括细胞游离dna片段的甲基化信息。

16.根据权利要求1-15中任一项所述的方法,还包括:

17.根据权利要求16所述的方法,还包括:

18.根据权利要求17所述的方法,还包括:

19.根据权利要求16-18中任一项所述的方法,其中所述阈值百分比选自5%至40%的范围。

20.根据权利要求16-19中任一项所述的方法,其中异常甲基化片段的所述阈值数目选自1-10的范围内。

21.一种用于训练癌症分类器的方法,所述方法包括:

22.根据权利要求22所述的方法,其中每个概率噪声模型通过来自所述健康样本的甲基化序列读段中甲基化cpg位点的测量的均值和离差来参数化。

23.根据权利要求21-22中任一项所述的方法,其中每个概率噪声模型通过以下方式进行训练:

24.根据权利要求23所述的方法,其中所述后验分布是β二项分布。

25.根据权利要求21-24中任一项所述的方法,其中由经训练的概率噪声模型针对每个甲基化序列读段确定的所述异常得分基于针对所述甲基化序列读段的p值,所述p值指示所述甲基化序列读段被异常甲基化的概率。

26.根据权利要求25所述的方法,其中针对每个甲基化序列读段的所述异常得分是针对所述甲基化序列读段的所述p值。

27.根据权利要求25所述的方法,其中针对每个甲基化序列读段的所述异常得分通过向针对所述甲基化序列读段所确定的所述p值应用变换来确定。

28.根据权利要求27所述的方法,其中所述变换是对数函数或非线性函数。

29.根据权利要求21-28中任一项所述的方法,其中所述多个基因组区域中的第一基因组区域与第一均值和第一离差相关联,并且其中所述多个基因组区域中的第二基因组区域与第二均值和第二离差相关联,所述第二均值和所述第二离差分别与所述第一均值和所述第一离差不同。

30.根据权利要求21-28中任一项所述的方法,其中所述多个基因组区域中的第一基因组区域包括第一数目的cpg位点,并且所述多个基因组区域中的所述第二基因组区域包括第二数目的cpg位点,所述第二数目的cpg位点不同于所述第一数目的cpg位点。

31.根据权利要求21-30中任一项所述的方法,还包括:

32.根据权利要求31所述的方法,还包括:

33.根据权利要求31所述的方法,还包括...

【专利技术属性】
技术研发人员:刘勤文
申请(专利权)人:格瑞尔有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1