使用甲基化测序数据调用变体的系统和方法技术方案

技术编号:35332875 阅读:17 留言:0更新日期:2022-10-26 11:51
提供了一种使用等位基因位置处的先验基因型概率的调用等位基因位置变体方法。使用链取向和映射至等位基因位置的每个相应核酸片段序列中等位基因位置处的相应碱基的同一性,获得等位基因位置的正向和反向上的链特异性碱基计数集合,其中等位基因位置处的碱基对链特异性碱基计数集合没有贡献,所述碱基的同一性能够受胞嘧啶向尿嘧啶的转化的影响。使用链特异性碱基计数集合和测序误差估计值为等位基因位置的每个候选基因型计算相应正向和反向链条件概率。使用这些条件概率和先前基因型概率的组合来计算似然性。由此,确定似然性是否支持等位基因位置处的变体调用。否支持等位基因位置处的变体调用。否支持等位基因位置处的变体调用。

【技术实现步骤摘要】
【国外来华专利技术】使用甲基化测序数据调用变体的系统和方法
[0001]相关专利申请的交叉引用
[0002]本申请要求于2020年2月28日提交的题为“使用甲基化测序数据调用变体的系统和方法”的美国临时专利申请第62/983,404号的优先权,该申请通过引用并入本文。


[0003]本说明书描述了使用甲基化测序,特别是来自从受试者获得的生物样品的核酸样品的测序,以确定受试者的基因组变体。

技术介绍

[0004]对癌症的分子基础的不断增加的了解以及下一代测序技术的快速发展,正在推进对体液中癌症发展所涉及的早期分子改变的研究。大规模测序技术,诸如下一代测序(NGS),已经提供了以每百万个碱基少于一美元的成本实现测序的机会,并且实际上已经实现了每百万个碱基少于十美分的成本。在血浆、血清和尿液无细胞DNA(cfDNA)中发现了与这类癌症发展相关联的特定性遗传和表观遗传改变。这类改变可潜在地用作几类癌症的诊断生物标志物。
[0005]无细胞DNA(cfDNA)可发现于代表“液体活检”的血清、血浆、尿液和其他体液中,其为特异性疾病的循环图。这代表了多种癌症的潜在非侵入性方法。
[0006]cfDNA来源于坏死或凋亡细胞,并且其一般由所有类型的细胞释放。特定的癌症改变可发现于患者的cfDNA中。cfDNA含有特异性肿瘤相关改变,诸如突变、甲基化和拷贝数变异(CNV)。
[0007]血浆或血清中cfDNA的存在得到充分表征。然而,ucfDNA也可为生物标志物的有前景的来源。
[0008]在血液中,细胞凋亡是决定cfDNA量的常见事件。然而,在癌症患者中,cfDNA的量也可受到坏死的影响。由于细胞凋亡似乎是主要的释放机制,因此循环cfDNA的大小分布显示在约167bp的短片段中的富集,对应于由细胞凋亡细胞生成的核小体。
[0009]肿瘤患者中血清和血浆中循环cfDNA的量似乎明显高于健康对照组,特别是在晚期肿瘤患者中循环cfDNA的量高于早期肿瘤患者。癌症患者的循环cfDNA的量的可变性高于健康个体,并且循环cfDNA的量受若干种生理和病理状况的影响,包括促炎性疾病。
[0010]甲基化状态和其他表观遗传修饰可与一些疾病状况诸如癌症的存在相关。并且已经确定甲基化特定模式与特定癌症病症相关联。甲基化模式甚至可在无细胞DNA中观察到。
[0011]鉴于循环cfDNA以及其他形式的基因型数据作为诊断指标的前景,本领域需要评估这类数据的基因组变体信息的方法。

技术实现思路

[0012]本公开通过提供使用核酸数据从获自受试者的生物样品确定基因组变体的稳健技术解决了背景中鉴定的缺点。甲基化数据与全基因组或靶向基因组测序数据的组合提供
了超过先前筛查方法的附加诊断能力。
[0013]在本公开中提供了用于通过分析数据集来解决上述问题的技术方案(例如,计算系统、方法和非暂态计算机可读存储介质)。
[0014]为了提供对本专利技术的一些方面的基本理解,下面呈现本专利技术的概述。该概述不是本专利技术的广泛综述。它不旨在标识本专利技术的关键/重要元素或描绘本专利技术的范围。其唯一目的是以简化的形式呈现本专利技术的一些概念,作为稍后呈现的更详细描述的序言。
[0015]本公开的一个方面提供了调用测试受试者的等位基因位置处变体的方法。该方法包括,在具有一个或多个处理器和存储由一个或多个处理器执行的一个或多个程序的存储器的计算机系统处,使用从参考群体获取的核酸数据,获得候选基因型的集合中每个相应候选基因型在等位基因位置处的基因型的先验概率。该方法还包括获得针对等位基因位置的链特异性碱基计数集合。链特异性碱基计数集合包括等位基因位置处的碱基的集合中每个碱基在正向和反向上的链特异性计数。每个链特异性碱基计数通过确定(i)链取向和(ii)在电子形式的第一多个核酸片段序列中每个相应核酸片段序列中的等位基因位置处的相应碱基的同一性来获取,所述第一多个核酸片段序列映射至等位基因位置,通过甲基化测序从测试受试者的第一生物样品中的第一多个核酸片段中获取。第一多个核酸片段序列中的等位基因位置处的碱基对链特异性碱基计数集合没有贡献,所述碱基的同一性可受甲基化或未甲基化胞嘧啶的转化影响。
[0016]该方法还包括使用链特异性碱基计数集合和测序误差估计值计算等位基因位置的候选基因型的集合中每个相应候选基因型的相应正向链条件概率和相应反向链条件概率,从而计算多个正向链条件概率和多个反向链条件概率。该方法继续计算多个似然性,多个似然性中的每个相应似然性用于候选基因型的集合中的相应候选基因型,其通过使用(i)多个反向链条件概率中的相应候选基因型的相应正向链条件概率,(ii)多个反向链条件概率中的相应候选基因型的相应反向链条件概率,和(iii)相应候选基因型的基因型的先验概率。该方法还包括确定多个似然性是否支持等位基因位置处的变体调用。
[0017]在一些实施方案中,第一生物样品是液体生物样品,并且第一多个核酸片段序列中的每个相应核酸片段序列代表液体生物样品中的无细胞核酸分子群体中的相应无细胞核酸分子的全部或一部分。
[0018]在一些实施方案中,第一生物样品是组织样品,并且第一多个核酸片段序列中的每个相应核酸片段序列代表组织样品中的核酸分子群体中的相应核酸分子的全部或一部分。在一些实施方案中,组织样品是来自测试受试者的肿瘤样品。
[0019]在一些实施方案中,参考群体包括至少一百名参考受试者。
[0020]在一些实施方案中,第一生物样品包括或由测试受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液组成。在一些实施方案中,测试受试者为人类。
[0021]在一些实施方案中,正向是F1R2读段取向,反向是F2R1读段取向。
[0022]在一些实施方案中,基因型的集合中的每个相应候选基因型具有X/Y形式。在一些实施方案中,X(例如,代表母系等位基因遗传)是参考基因组中等位基因位置处的碱基的集合{A,C,T,G}中的碱基的同一性,并且Y(例如,代表父系等位基因遗传)是测试受试者中等位基因位置处的碱基的集合{A,C,T,G}中的碱基的同一性。
[0023]在一些实施方案中,候选基因型的集合包括集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}中的两种至十种基因型。在一些实施方案中,候选基因型的集合包括集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}中的至少两种基因型。在一些实施方案中,候选基因型的集合由集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}组成。
[0024]在一些实施方案中,候选基因型的集合中的相应候选基因型的相应似然性具有以下形式:
[0025]Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种调用测试受试者的等位基因位置处的变体的方法,所述方法包括:在具有一个或多个处理器和存储由所述一个或多个处理器执行的一个或多个程序的存储器的计算机系统处:(A)使用从参考群体中获取的核酸数据,对于候选基因型的集合中的每个相应候选基因型,推导所述等位基因位置处基因型的先验概率;(B)获得针对所述等位基因位置的链特异性碱基计数集合,其中所述链特异性碱基计数集合包括所述等位基因位置处的所述碱基的集合{A,C,T,G}中每个碱基在正向和反向上的链特异性计数,所述链特异性计数通过确定(i)链取向和(ii)在电子形式的第一多个核酸片段序列中每个相应核酸片段序列中的所述等位基因位置处的相应碱基的同一性来被获取,所述第一多个核酸片段序列映射至所述等位基因位置,通过甲基化测序从所述测试受试者的第一生物样品中的第一多个核酸片段中获取,并且其中所述第一多个核酸片段序列中的所述等位基因位置处的碱基对所述链特异性碱基计数集合没有贡献,所述碱基的同一性能够受甲基化或未甲基化胞嘧啶的转化影响;(C)使用所述链特异性碱基计数集合和测序误差估计值计算针对所述等位基因位置的所述候选基因型的集合中每个相应候选基因型的相应正向链条件概率和相应反向链条件概率,从而计算多个正向链条件概率和多个反向链条件概率;(D)使用以下项的组合,计算多个似然性,所述多个似然性中的每个相应似然性用于所述候选基因型的集合中的相应候选基因型:(i)所述多个正向链条件概率中的所述相应候选基因型的所述相应正向链条件概率,(ii)所述多个反向链条件概率中的所述相应候选基因型的所述相应反向链条件概率,和(iii)所述相应候选基因型的基因型的所述先验概率;以及(E)确定所述多个似然性是否支持所述等位基因位置处的变体调用。2.根据权利要求1所述的方法,其中所述第一生物样品是液体生物样品,并且所述第一多个核酸片段序列中的每个相应核酸片段序列代表所述液体生物样品中的无细胞核酸分子群体中的相应无细胞核酸分子的全部或一部分。3.根据权利要求1所述的方法,其中所述第一生物样品是组织样品,并且所述第一多个核酸片段序列中的每个相应核酸片段序列代表所述组织样品中的核酸分子群体中的相应核酸分子的全部或一部分。4.根据权利要求3所述的方法,其中所述组织样品是来自所述测试受试者的肿瘤样品。5.根据权利要求1所述的方法,其中所述参考群体包括至少一百名参考受试者。6.根据权利要求1所述的方法,其中所述第一生物样品包括所述测试受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。7.根据权利要求1所述的方法,其中所述第一生物样品包括:所述测试受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。8.根据权利要求1

7中任一项所述的方法,其中所述测试受试者为人类。9.根据权利要求1

8中任一项所述的方法,其中所述正向是F1R2读段取向并且所述反向是F2R1读段取向。10.根据权利要求1

9中任一项所述的方法,其中所述基因型的集合中的每个相应候选基因型呈X/Y形式,其中:
X是在参考基因组中的所述等位基因位置处的所述碱基的集合{A,C,T,G}中的所述碱基的同一性,Y是在所述测试受试者中的所述等位基因位置处的所述碱基的集合{A,C,T,G}中的所述碱基的同一性。11.根据权利要求10所述的方法,其中所述候选基因型的集合包括所述集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}中的两种至十种基因型。12.根据权利要求10所述的方法,其中所述候选基因型的集合包括所述集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}中的至少两种基因型。13.根据权利要求10所述的方法,其中所述候选基因型的集合包括所述集合{A/A,A/C,A/G,A/T,C/C,C/G,C/T,G/G,G/T和T/T}。14.根据权利要求10所述的方法,其中所述候选基因型的集合中的相应候选基因型的相应似然性具有以下形式:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(G),其中:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)是所述相应候选基因型的所述相应正向链条件概率,Pr(R
c
,R
T
,R
AG
|R
ACGT
,基因型,∈)是所述相应候选基因型的所述相应反向链条件概率,Pr(G)是通过权利要求1的所述获得步骤(A)获取的、针对所述相应候选基因型的在所述等位基因位置处的基因型的所述先验概率,∈是所述测序误差估计值,基因型是所述相应候选基因型,F
A
是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的碱基A的所述正向碱基计数,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置,F
G
是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的碱基G的所述正向碱基计数,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置,F
CT
是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的(i)碱基C的所述正向碱基计数和(ii)碱基T的所述正向碱基计数的总和,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置,R
C
是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的碱基C的所述反向碱基计数,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置,R
T
是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的碱基T的所述反向碱基计数,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置,并且R
AG
是在所述链特异性碱基计数集合中,跨所述第一多个核酸片段序列的所述等位基因位置处的(i)碱基A的所述反向碱基计数和(ii)碱基G的所述反向碱基计数的总和,所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置。15.根据权利要求14所述的方法,其中所述相应候选基因型G是A/A,并且计算所述相应
似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/A),针对A/A包括如下计算:16.根据权利要求14所述的方法,其中所述相应候选基因型G是A/A,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/A),针对A/A包括如下计算:17.根据权利要求14所述的方法,其中所述相应候选基因型G是A/C,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/C),针对A/C包括如下计算:18.根据权利要求14所述的方法,其中所述相应候选基因型G是A/C,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/C),针对A/C包括如下计算:19.根据权利要求14所述的方法,其中所述相应候选基因型G是A/G,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/G),针对A/G包括如下计算:20.根据权利要求14所述的方法,其中所述相应候选基因型G是A/G,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/G),针对A/G包括如下计算:
21.根据权利要求14所述的方法,其中所述相应候选基因型G是A/T,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/T),针对A/T包括如下计算:22.根据权利要求14所述的方法,其中所述相应候选基因型G是A/T,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/T),针对A/T包括如下计算:23.根据权利要求14所述的方法,其中所述相应候选基因型G是C/C,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(C/C),针对C/C包括如下计算:24.根据权利要求14所述的方法,其中所述相应候选基因型G是C/C,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(C/C),针对C/C包括如下计算:25.根据权利要求14所述的方法,其中所述相应候选基因型G是C/G,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(C/G),针对C/G包括如下计算:
26.根据权利要求14所述的方法,其中所述相应候选基因型G是C/G,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(C/G),针对C/G包括如下计算:27.根据权利要求14所述的方法,其中所述相应候选基因型G是C/T,并且计算所述相应似然性:Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基...

【专利技术属性】
技术研发人员:P
申请(专利权)人:格瑞尔有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1