鉴定基因组中的变异的定相和连接方法技术

技术编号:20822574 阅读:47 留言:0更新日期:2019-04-10 06:39
长片段读出技术可以用于鉴定缺失并解析碱基识别,其通过利用读出与任意对应于单体型的杂合基因座(het)的读出的共享标签(例如,共享的等分试样)进行。例如,将基因座连接到多个het的单体型可以增加在所述基因座处的可用读出,用于确定特定单体型的碱基识别。对于半合子缺失,可以将某个区域连接到一个或多个het,并且特定单体型的标签可以用于鉴定区域中的哪些读出对应哪个单体型。以这种方式,由于可以鉴定特定单体型的读出,可以确定半合子缺失。此外,可以使用脉冲的定相率鉴定大缺失。可以在定相率足够低的情况下鉴定缺失,并可以使用其它标准。

【技术实现步骤摘要】
鉴定基因组中的变异的定相和连接方法本申请是基于申请日为2014年10月1日,优先权日为2013年10月1日,申请号为201480054553.3,专利技术名称为:“鉴定基因组中的变异的定相和连接方法”的专利申请的分案申请。对相关申请的交叉引用本申请要求2013年10月1日提交的美国临时申请号61/885,470,标题为“PHASINGANDLINKINGPROCESSESTOIDENTIFYVARIATIONSINAGENOME”的优先权,并是该申请的非临时申请,通过提述将其整体内容并入本文用于所有目的。本申请涉及共同拥有的美国专利申请号13/448,279,标题为“SequencingSmallAmountsOfComplexNucleicAcids”(代理人案号92171-5039US),提交于2012年4月16日;美国专利申请号13/447,087,标题为“ProcessingAndAnalysisOfComplexNucleicAcidSequenceData”(代理人案号92171-5041US),提交于2012年4月13日;美国专利申请号13/649,966,标题为“IdentificationOfDNAFragmentsAndStructuralVariations”(代理人案号92171-002510US),提交于2012年10月11日;美国专利申请号13/591,723,标题为“PhasingOfHeterozygousLociToDetermineGenomicHaplotypes”(代理人案号92171-002410US),提交于2012年8月22日;和美国专利申请号13/591,741,标题为“AnalyzingGenomeSequencingInformationToDetermineLikelihoodOfCo-SegregatingAllelesOnHaplotypes”(代理人案号92171-002420US),提交于2012年8月22日,其公开通过提述以其整体并入本文。专利技术背景自从1978年的第一例出生以来,世界范围内已经有超过5百万的婴儿通过体外受精(IVF)出生。难以确定精确的数字,但是经估算目前每年有350,000个婴儿通过IVF出生。预期该数字上升,因为较大的母亲年龄与降低的受精率相关,且在发达国家,女性继续推迟分娩到更晚的年纪。在95%的IVF方案中,没有进行胚胎的诊断测试(http://www.sart.org/find_frm.html)。先前怀孕困难的夫妻或那些希望避免高渗透度遗传性疾病的传播的夫妻通常选择进行植入前遗传诊断(PGD)。PGD涉及对来自3天胚胎的1个细胞或5-6天的胚泡期的高达10个细胞的活组织检查及随后的遗传分析。目前,这是用于易位(translocation)和正确的染色体拷贝数的任一测定法,即对于每种特定的遗传疾病设计并验证的独特测试,或两者的组合。重要的是,这些方法没有一个能够检测尚未与具体疾病相关的从头(denovo)突变或变异。目前,可用于体外受精胚胎的植入前遗传诊断(PGD)的唯一方法是那些检测大的基因组变化或单基因病症的方法。这些方法对于大量潜在的基因组缺陷可以是察觉不到的。尽管文献中关于IVF在分娩缺陷中的角色存在一些争议,两项近期研究声称在通过IVF出生的儿童中看到了升高的发病率,其可能是由这些不育父母中过多的遗传缺陷所致。另外,后期的母亲年龄已经与非整倍体胚胎的增加相关,而后期的父亲年龄已经与胚胎的从头突变相关。许多近期的大规模测序研究已经发现,分散于许多不同基因的从头变异可能是很大一部分自闭症病例,以及许多其它罕见的先天性病症的原因。这些研究提示我们可以做得更多以试着改善IVF新生儿的健康。目前对PGD的靶向方法将遗漏胚胎DNA序列中许多重要的功能变化。重要的是,由于从头突变,即便是对父母双方的全面的基于WGS的载体筛查也无法进行靶向植入前或产前诊断。最近的报道发现,比起知道没有功能的区域,从头突变更经常影响基因组的功能区域,进一步强调了能在PGD中鉴定这一类基因组变异的重要性。此外,突变的鉴定可用于除IVF之外的各种用途。因此,期望提供用于确定基因组中的突变的改进技术。专利技术简述实施方案提供系统,方法和仪器以进行定相(phasing)和连接(linking)过程,用于鉴定生物体的基因组的单体型(haplotype),其可以涉及鉴定基因组中的变异。这些变异可以包括半合子缺失(即在一个单体型中的给定位点/区域的缺失),在两个单倍体中区域中的缺失,或插入。实施方案可以使用长片段读出(longfragmentread,LFR)以确定两个读出当它们具有相同的标签(例如,来自相同的等分试样)和彼此在特定的距离之内(例如,50Kb)时可能来自同一个长片段,。在一个实例中,实施方案针对解析(resolving)碱基识别(basecall)(例如,从无识别到碱基识别或到正确的碱基识别)。通过进行定相以确定单体型,实施方案可以提供更好的精确度。接着,通过利用读出与对应单体型的任意读出的共享标签(例如,共享等分试样),可以使用长片段读出(LFR)技术来解析碱基识别。将基因座连接到多个杂合基因座(het)的单体型可以帮助利用所述基因座处可用的多个读出。在另一个实例中,可以使用长片段读出(LFR)技术来鉴定缺失。对于半合子缺失,可以将区域连接到一个或多个hets,而特定单体型的标签可以用于鉴定该区域中的哪些读出对应哪个单体型。以这种方式,由于可以鉴定特定单体型的读出,当对于特定单体型的读出量较低时,可以以较大的精确度确定半合子缺失。这种确定比使用该区域中的所有读出的量可以给出更大的精确性。在另一个实例中,可以使用脉冲(pulse)的定相率(phaserate)(由具有相同标签的序列读出覆盖的参考基因组的连续区段)来鉴定大型缺失。可以从区域的脉冲总数和覆盖经定相的het的脉冲数确定区域的定相率。可以在定相率足够低的情况下鉴定缺失(Adeletioncanbeidentifiedwiththephasingrateissufficientlylow)。其它实施方案针对与本文所述的方法相关的系统,便携式消费设备,以及计算机可读介质。可以参考以下详细描述和附图,获得对本专利技术的实施方案的性质和优点更好的理解。本文包括以下内容:实施方式1.一种从自生物体获得的样品确定生物体的单体型的方法,所述方法包括:在计算机系统上接收来自所述生物体的多个核酸分子的测序的序列数据,其中所述多个核酸分子的每一个的序列数据包括:所述核酸分子的至少一部分的一个或多个序列读出,和对应于所述一个或多个序列读出的标签,所述标签指示所述核酸分子的来源;对于所述多个核酸分子的每一个:通过所述计算机系统将所述核酸分子的至少一个序列读出定位到参考基因组;鉴定第一多个第一het,每个第一het具有各自的第一等位基因和各自的第二等位基因;通过所述计算机系统确定所述第一多个第一het中的第一和第二等位基因的定相以确定第一重叠群,所述第一重叠群将所述第一等位基因指定为对应于第一单体型,并将所述第二等位基因指定为对应于第二单体型,通过所述计算机系统,将第一基因座连接到所述第一重叠群,本文档来自技高网...

【技术保护点】
1.一种通过分析自生物体获得的样品来检测生物体的基因组中的半合子缺失的方法,所述方法包括:从所述生物体的多个核酸分子的测序接收序列数据,其中对于所述多个核酸分子的每一个的序列数据包括:所述核酸分子的至少一部分的一个或多个序列读出,和对应所述一个或多个序列读出的标签,所述标签指示所述核酸分子的来源;对于所述多个核酸分子的每一个:通过计算机系统,将所述核酸分子的至少一个序列读出定位到参考基因组;通过计算机系统,鉴定一个或多个连接到第一区域的het,其中每个het具有对应第一单体型的第一等位基因和对应第二单体型的第二等位基因;通过计算机系统,鉴定第一组共享的标签,每个共享的标签对应:定位到所述参考基因组的第一区域的一个或多个序列读出,和定位到一个或多个连接到第一区域的het之一并包括对应的第一等位基因的至少一个序列读出;确定第一量的序列读出,其对应共享的标签并定位到第一区域;标准化所述第一量以获得标准化的第一量;和将所述标准化的第一量与第一截留值比较以确定所述第一单体型在第一区域中是否包括缺失。

【技术特征摘要】
2013.10.01 US 61/885,4701.一种通过分析自生物体获得的样品来检测生物体的基因组中的半合子缺失的方法,所述方法包括:从所述生物体的多个核酸分子的测序接收序列数据,其中对于所述多个核酸分子的每一个的序列数据包括:所述核酸分子的至少一部分的一个或多个序列读出,和对应所述一个或多个序列读出的标签,所述标签指示所述核酸分子的来源;对于所述多个核酸分子的每一个:通过计算机系统,将所述核酸分子的至少一个序列读出定位到参考基因组;通过计算机系统,鉴定一个或多个连接到第一区域的het,其中每个het具有对应第一单体型的第一等位基因和对应第二单体型的第二等位基因;通过计算机系统,鉴定第一组共享的标签,每个共享的标签对应:定位到所述参考基因组的第一区域的一个或多个序列读出,和定位到一个或多个连接到第一区域的het之一并包括对应的第一等位基因的至少一个序列读出;确定第一量的序列读出,其对应共享的标签并定位到第一区域;标准化所述第一量以获得标准化的第一量;和将所述标准化的第一量与第一截留值比较以确定所述第一单体型在第一区域中是否包括缺失。2.权利要求1的方法,其中所述多个核酸分子分布于所述样品的多个等分试样中,每个等分试样包括片段化出所述核酸分子的一个或多个长核酸分子,并且其中所述标签指示所述核酸分子来自哪个等分试样。3.权利要求1的方法,其中两个核酸分子上具有相同的标签指示所述两个核酸分子来自相同的长核酸分子。4.权利要求1的方法,进一步包括:将标准化的第一量与第二截留值比较以确定所述第一单体型在所述第一区域中是否包括插入,其中所述第二截留值小于所述第一截留值。5.权利要求1的方法,进一步包括:将标准化的第一量与第二截留值比较以确定所述第一单体型是否包括对应所述第一区域的扩增,其中所述第二截留值比所述第一截留值大。6.权利要求1的方法,进一步包括:鉴定第二组的第二标签,每个第二标签对应:定位到所述参考基因组的第一区域的一个或多个序列读出,和定位到一个或多个连接到第一区域的het之一并包括对应的第二等位基因的至少一个序列读出;确定第二量的序列读出,其对应所述第二标签并定位到所述第一区域;使用所述第二量来标准化所述第一量。7.权利要求6的方法,其中使用所述第二量来标准化所述第一量包括:计算所述第一量和所述第二量之间的参数。8.权利要求7的方法,其中所述参数包括所述第一量和所述第二量之间的差。9.权利要求7的方法,其中所述参数包括所述第一量和所述第二量之间的比率。10.权利要求7的方法,其中所述第一截留值取决于定位到所述参考基因组的序列读出的数量。11.权利要求1的方法,其中标准化所述第一量使用定位到所述参考基因组的序列读出的数量。12.权利要求11的方法,其中所述第一区域对应连续的位置,且其中标准化所述第一量包括:确定与所述第一区域相同长度的多个其它区域的序列读出的平均数量。13.权利要求12的方法,进一步包括:通过排除具有高于阈值的GC含量或具有大于阈值的序列平均数量的区域,从较大组的区域中选择所述其它区域。14.权利要求1的方法,其中鉴定第一het连接到第一区域包括:鉴定对应定位到所述第一区域的序列读出和对应定位到所述第一het的序列读出的标签。15.权利要求14的方法,其中所述第一het不在第一区域的范围内。16.权利要求1的方法,其中所述第一量是对应所述共享的标签并定位到所述第一区域的序列读出的数量。17....

【专利技术属性】
技术研发人员:BG克马尼R德马纳克BA彼得斯
申请(专利权)人:考利达基因组股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1