【技术实现步骤摘要】
【国外来华专利技术】
本公开整体涉及使用甲基化信息来对核酸片段进行分类的模型。
技术介绍
1、使用下一代测序(ngs)来分析循环中的细胞游离核苷酸,诸如细胞游离dna(cfdna)或细胞游离rna(cfrna),被认为是用于检测和诊断癌症或其他疾病的宝贵工具。使用ngs来标识指示癌症的罕见变异需要对生物样本(诸如组织活检或从受试者身上抽取的血液)的核苷酸序列进行深度测序。从血液样本中检测源自肿瘤细胞的dna很困难,因为循环肿瘤dna(ctdna)或循环肿瘤rna(ctrna)相对于从血液中提取的cfdna中的其他分子通常以较低的水平存在。现有方法无法从信号噪声中标识真阳性(例如,指示受试者患有癌症),这削弱了已知和未来系统区分真阳性和由噪声源引起的假阳性的能力,从而可能导致变异检出(variant calling)或其他类型的分析结果不可靠。此外,在样本制备和测序期间引入的错误可能使得准确标识罕见变异变得困难。
2、已开发了许多不同的方法来检测测序数据中的变异,诸如单核苷酸变异(snv)。大多数常规方法已被开发用于从组织样本中获得的dna测序数据
...【技术保护点】
1.一种用于训练癌症分类器的方法,所述方法包括:
2.根据权利要求1所述的方法,其中训练所述概率噪声模型包括:
3.根据权利要求2所述的方法,其中所述后验分布是β二项分布。
4.根据权利要求1-3中任一项所述的方法,其中通过针对每个甲基化序列读段训练的概率噪声模型来确定的所述异常得分基于针对所述甲基化序列读段的p值,所述p值指示所述甲基化序列读段被异常甲基化的概率。
5.根据权利要求4所述的方法,其中针对每个甲基化序列读段的所述异常得分是针对所述甲基化序列读段的所述p值。
6.根据权利要求4所述的方法,其中针
...【技术特征摘要】
【国外来华专利技术】
1.一种用于训练癌症分类器的方法,所述方法包括:
2.根据权利要求1所述的方法,其中训练所述概率噪声模型包括:
3.根据权利要求2所述的方法,其中所述后验分布是β二项分布。
4.根据权利要求1-3中任一项所述的方法,其中通过针对每个甲基化序列读段训练的概率噪声模型来确定的所述异常得分基于针对所述甲基化序列读段的p值,所述p值指示所述甲基化序列读段被异常甲基化的概率。
5.根据权利要求4所述的方法,其中针对每个甲基化序列读段的所述异常得分是针对所述甲基化序列读段的所述p值。
6.根据权利要求4所述的方法,其中针对每个甲基化序列读段的所述异常得分通过向针对所述甲基化序列读段所确定的所述p值应用变换来确定。
7.根据权利要求5所述的方法,其中所述变换是对数函数或非线性函数。
8.根据权利要求1-7中任一项所述的方法,其中所述多个基因组区域中的第一基因组区域与第一均值和第一离差相关联,并且其中所述多个基因组区域中的第二基因组区域与第二均值和第二离差相关联,所述第二均值和所述第二离差分别与所述第一均值和所述第一离差不同。
9.根据权利要求1-7中任一项所述的方法,其中所述多个基因组区域中的第一基因组区域包括第一数目的cpg位点,并且所述多个基因组区域中的所述第二基因组区域包括第二数目的cpg位点,所述第二数目的cpg位点不同于所述第一数目的cpg位点。
10.根据权利要求1-7中任一项所述的方法,还包括:
11.根据权利要求10所述的方法,其中所述癌症预测估计所述测试样本的肿瘤分数。
12.根据权利要求10-11中任一项所述的方法,其中所述癌症预测指示在所述测试样本中存在疾病状态。
13.根据权利要求12所述的方法,其中所述疾病状态选自由以下项组成的组:乳腺癌、子宫癌、宫颈癌、卵巢癌、膀胱癌、肾盂尿路上皮癌、尿路上皮以外的肾癌、前列腺癌、肛门直肠癌、结直肠癌、食管癌、胃癌、肝细胞引起的肝胆癌、肝细胞以外的细胞引起的肝胆癌、胰腺癌、上消化道鳞状细胞癌、鳞状癌以外的上消化道癌、头颈癌、肺癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌和腺癌或小细胞肺癌以外的癌症、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病以及其他血液病。
14.根据权利要求10-13中任一项所述的方法,其中所述癌症预测指示所述测试样本中存在的癌症的分期。
15.根据权利要求1-14中任一项所述的方法,其中所述甲基化序列读段包括细胞游离dna片段的甲基化信息。
16.根据权利要求1-15中任一项所述的方法,还包括:
17.根据权利要求16所述的方法,还包括:
18.根据权利要求17所述的方法,还包括:
19.根据权利要求16-18中任一项所述的方法,其中所述阈值百分比选自5%至40%的范围。
20.根据权利要求16-19中任一项所述的方法,其中异常甲基化片段的所述阈值数目选自1-10的范围内。
21.一种用于训练癌症分类器的方法,所述方法包括:
22.根据权利要求22所述的方法,其中每个概率噪声模型通过来自所述健康样本的甲基化序列读段中甲基化cpg位点的测量的均值和离差来参数化。
23.根据权利要求21-22中任一项所述的方法,其中每个概率噪声模型通过以下方式进行训练:
24.根据权利要求23所述的方法,其中所述后验分布是β二项分布。
25.根据权利要求21-24中任一项所述的方法,其中由经训练的概率噪声模型针对每个甲基化序列读段确定的所述异常得分基于针对所述甲基化序列读段的p值,所述p值指示所述甲基化序列读段被异常甲基化的概率。
26.根据权利要求25所述的方法,其中针对每个甲基化序列读段的所述异常得分是针对所述甲基化序列读段的所述p值。
27.根据权利要求25所述的方法,其中针对每个甲基化序列读段的所述异常得分通过向针对所述甲基化序列读段所确定的所述p值应用变换来确定。
28.根据权利要求27所述的方法,其中所述变换是对数函数或非线性函数。
29.根据权利要求21-28中任一项所述的方法,其中所述多个基因组区域中的第一基因组区域与第一均值和第一离差相关联,并且其中所述多个基因组区域中的第二基因组区域与第二均值和第二离差相关联,所述第二均值和所述第二离差分别与所述第一均值和所述第一离差不同。
30.根据权利要求21-28中任一项所述的方法,其中所述多个基因组区域中的第一基因组区域包括第一数目的cpg位点,并且所述多个基因组区域中的所述第二基因组区域包括第二数目的cpg位点,所述第二数目的cpg位点不同于所述第一数目的cpg位点。
31.根据权利要求21-30中任一项所述的方法,还包括:
32.根据权利要求31所述的方法,还包括:
33.根据权利要求31所述的方法,还包括...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。