使用甲基化测序数据调用变体的系统和方法技术方案

技术编号：35332875 阅读：17 留言：0更新日期：2022-10-26 11:51

提供了一种使用等位基因位置处的先验基因型概率的调用等位基因位置变体方法。使用链取向和映射至等位基因位置的每个相应核酸片段序列中等位基因位置处的相应碱基的同一性，获得等位基因位置的正向和反向上的链特异性碱基计数集合，其中等位基因位置处的碱基对链特异性碱基计数集合没有贡献，所述碱基的同一性能够受胞嘧啶向尿嘧啶的转化的影响。使用链特异性碱基计数集合和测序误差估计值为等位基因位置的每个候选基因型计算相应正向和反向链条件概率。使用这些条件概率和先前基因型概率的组合来计算似然性。由此，确定似然性是否支持等位基因位置处的变体调用。否支持等位基因位置处的变体调用。否支持等位基因位置处的变体调用。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用甲基化测序数据调用变体的系统和方法
[0001]相关专利申请的交叉引用
[0002]本申请要求于2020年2月28日提交的题为“使用甲基化测序数据调用变体的系统和方法”的美国临时专利申请第62/983,404号的优先权，该申请通过引用并入本文。

[0003]本说明书描述了使用甲基化测序，特别是来自从受试者获得的生物样品的核酸样品的测序，以确定受试者的基因组变体。

技术介绍

[0004]对癌症的分子基础的不断增加的了解以及下一代测序技术的快速发展，正在推进对体液中癌症发展所涉及的早期分子改变的研究。大规模测序技术，诸如下一代测序(NGS)，已经提供了以每百万个碱基少于一美元的成本实现测序的机会，并且实际上已经实现了每百万个碱基少于十美分的成本。在血浆、血清和尿液无细胞DNA(cfDNA)中发现了与这类癌症发展相关联的特定性遗传和表观遗传改变。这类改变可潜在地用作几类癌症的诊断生物标志物。
[0005]无细胞DNA(cfDNA)可发现于代表“液体活检”的血清、血浆、尿液和其他体液中，其为特异性疾病的循环图。这代表了多种癌症的潜在非侵入性方法。
[0006]cfDNA来源于坏死或凋亡细胞，并且其一般由所有类型的细胞释放。特定的癌症改变可发现于患者的cfDNA中。cfDNA含有特异性肿瘤相关改变，诸如突变、甲基化和拷贝数变异(CNV)。
[0007]血浆或血清中cfDNA的存在得到充分表征。然而，ucfDNA也可为生物标志物的有前景的来源。
[0008]在血液中，细胞凋亡是...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种调用测试受试者的等位基因位置处的变体的方法，所述方法包括：在具有一个或多个处理器和存储由所述一个或多个处理器执行的一个或多个程序的存储器的计算机系统处：(A)使用从参考群体中获取的核酸数据，对于候选基因型的集合中的每个相应候选基因型，推导所述等位基因位置处基因型的先验概率；(B)获得针对所述等位基因位置的链特异性碱基计数集合，其中所述链特异性碱基计数集合包括所述等位基因位置处的所述碱基的集合{A，C，T，G}中每个碱基在正向和反向上的链特异性计数，所述链特异性计数通过确定(i)链取向和(ii)在电子形式的第一多个核酸片段序列中每个相应核酸片段序列中的所述等位基因位置处的相应碱基的同一性来被获取，所述第一多个核酸片段序列映射至所述等位基因位置，通过甲基化测序从所述测试受试者的第一生物样品中的第一多个核酸片段中获取，并且其中所述第一多个核酸片段序列中的所述等位基因位置处的碱基对所述链特异性碱基计数集合没有贡献，所述碱基的同一性能够受甲基化或未甲基化胞嘧啶的转化影响；(C)使用所述链特异性碱基计数集合和测序误差估计值计算针对所述等位基因位置的所述候选基因型的集合中每个相应候选基因型的相应正向链条件概率和相应反向链条件概率，从而计算多个正向链条件概率和多个反向链条件概率；(D)使用以下项的组合，计算多个似然性，所述多个似然性中的每个相应似然性用于所述候选基因型的集合中的相应候选基因型：(i)所述多个正向链条件概率中的所述相应候选基因型的所述相应正向链条件概率，(ii)所述多个反向链条件概率中的所述相应候选基因型的所述相应反向链条件概率，和(iii)所述相应候选基因型的基因型的所述先验概率；以及(E)确定所述多个似然性是否支持所述等位基因位置处的变体调用。2.根据权利要求1所述的方法，其中所述第一生物样品是液体生物样品，并且所述第一多个核酸片段序列中的每个相应核酸片段序列代表所述液体生物样品中的无细胞核酸分子群体中的相应无细胞核酸分子的全部或一部分。3.根据权利要求1所述的方法，其中所述第一生物样品是组织样品，并且所述第一多个核酸片段序列中的每个相应核酸片段序列代表所述组织样品中的核酸分子群体中的相应核酸分子的全部或一部分。4.根据权利要求3所述的方法，其中所述组织样品是来自所述测试受试者的肿瘤样品。5.根据权利要求1所述的方法，其中所述参考群体包括至少一百名参考受试者。6.根据权利要求1所述的方法，其中所述第一生物样品包括所述测试受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。7.根据权利要求1所述的方法，其中所述第一生物样品包括：所述测试受试者的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、泪液、胸膜液、心包液或腹膜液。8.根据权利要求1
‑
7中任一项所述的方法，其中所述测试受试者为人类。9.根据权利要求1
‑
8中任一项所述的方法，其中所述正向是F1R2读段取向并且所述反向是F2R1读段取向。10.根据权利要求1
‑
9中任一项所述的方法，其中所述基因型的集合中的每个相应候选基因型呈X/Y形式，其中：
X是在参考基因组中的所述等位基因位置处的所述碱基的集合{A，C，T，G}中的所述碱基的同一性，Y是在所述测试受试者中的所述等位基因位置处的所述碱基的集合{A，C，T，G}中的所述碱基的同一性。11.根据权利要求10所述的方法，其中所述候选基因型的集合包括所述集合{A/A，A/C，A/G，A/T，C/C，C/G，C/T，G/G，G/T和T/T}中的两种至十种基因型。12.根据权利要求10所述的方法，其中所述候选基因型的集合包括所述集合{A/A，A/C，A/G，A/T，C/C，C/G，C/T，G/G，G/T和T/T}中的至少两种基因型。13.根据权利要求10所述的方法，其中所述候选基因型的集合包括所述集合{A/A，A/C，A/G，A/T，C/C，C/G，C/T，G/G，G/T和T/T}。14.根据权利要求10所述的方法，其中所述候选基因型的集合中的相应候选基因型的相应似然性具有以下形式：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(G)，其中：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)是所述相应候选基因型的所述相应正向链条件概率，Pr(R
c
,R
T
,R
AG
|R
ACGT
,基因型,∈)是所述相应候选基因型的所述相应反向链条件概率，Pr(G)是通过权利要求1的所述获得步骤(A)获取的、针对所述相应候选基因型的在所述等位基因位置处的基因型的所述先验概率，∈是所述测序误差估计值，基因型是所述相应候选基因型，F
A
是在所述链特异性碱基计数集合中，跨所述第一多个核酸片段序列的所述等位基因位置处的碱基A的所述正向碱基计数，所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置，F
G
是在所述链特异性碱基计数集合中，跨所述第一多个核酸片段序列的所述等位基因位置处的碱基G的所述正向碱基计数，所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置，F
CT
是在所述链特异性碱基计数集合中，跨所述第一多个核酸片段序列的所述等位基因位置处的(i)碱基C的所述正向碱基计数和(ii)碱基T的所述正向碱基计数的总和，所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置，R
C
是在所述链特异性碱基计数集合中，跨所述第一多个核酸片段序列的所述等位基因位置处的碱基C的所述反向碱基计数，所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置，R
T
是在所述链特异性碱基计数集合中，跨所述第一多个核酸片段序列的所述等位基因位置处的碱基T的所述反向碱基计数，所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置，并且R
AG
是在所述链特异性碱基计数集合中，跨所述第一多个核酸片段序列的所述等位基因位置处的(i)碱基A的所述反向碱基计数和(ii)碱基G的所述反向碱基计数的总和，所述第一多个核酸片段序列映射至来自所述第一生物样品的所述等位基因位置。15.根据权利要求14所述的方法，其中所述相应候选基因型G是A/A，并且计算所述相应
似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/A)，针对A/A包括如下计算：16.根据权利要求14所述的方法，其中所述相应候选基因型G是A/A，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/A)，针对A/A包括如下计算：17.根据权利要求14所述的方法，其中所述相应候选基因型G是A/C，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/C)，针对A/C包括如下计算：18.根据权利要求14所述的方法，其中所述相应候选基因型G是A/C，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/C)，针对A/C包括如下计算：19.根据权利要求14所述的方法，其中所述相应候选基因型G是A/G，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/G)，针对A/G包括如下计算：20.根据权利要求14所述的方法，其中所述相应候选基因型G是A/G，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/G)，针对A/G包括如下计算：
21.根据权利要求14所述的方法，其中所述相应候选基因型G是A/T，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/T)，针对A/T包括如下计算：22.根据权利要求14所述的方法，其中所述相应候选基因型G是A/T，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(A/T)，针对A/T包括如下计算：23.根据权利要求14所述的方法，其中所述相应候选基因型G是C/C，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(C/C)，针对C/C包括如下计算：24.根据权利要求14所述的方法，其中所述相应候选基因型G是C/C，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(C/C)，针对C/C包括如下计算：25.根据权利要求14所述的方法，其中所述相应候选基因型G是C/G，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(C/G)，针对C/G包括如下计算：
26.根据权利要求14所述的方法，其中所述相应候选基因型G是C/G，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基因型,∈)*Pr(C/G)，针对C/G包括如下计算：27.根据权利要求14所述的方法，其中所述相应候选基因型G是C/T，并且计算所述相应似然性：Pr(F
A
,F
G
,F
CT
|F
ACGT
,基因型,∈)*Pr(R
AG
,R
C
,R
T
|R
ACGT
,基...

【专利技术属性】
技术研发人员：P，
申请(专利权)人：格瑞尔有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人