鉴定基因组中的变异的定相和连接方法技术

技术编号:13280065 阅读:136 留言:0更新日期:2016-05-19 04:12
长片段读出技术可以用于鉴定缺失并解析碱基识别,其通过利用读出与任意对应于单体型的杂合基因座(het)的读出的共享标签(例如,共享的等分试样)进行。例如,将基因座连接到多个het的单体型可以增加在所述基因座处的可用读出,用于确定特定单体型的碱基识别。对于半合子缺失,可以将某个区域连接到一个或多个het,并且特定单体型的标签可以用于鉴定区域中的哪些读出对应哪个单体型。以这种方式,由于可以鉴定特定单体型的读出,可以确定半合子缺失。此外,可以使用脉冲的定相率鉴定大缺失。可以在定相率足够低的情况下鉴定缺失,并可以使用其它标准。

【技术实现步骤摘要】
【国外来华专利技术】鉴定基因组中的变异的定相和连接方法对相关申请的交叉引用本申请要求2013年10月1日提交的美国临时申请号61/885,470,标题为“PHASINGANDLINKINGPROCESSESTOIDENTIFYVARIATIONSINAGENOME”的优先权,并是该申请的非临时申请,通过提述将其整体内容并入本文用于所有目的。本申请涉及共同拥有的美国专利申请号13/448,279,标题为“SequencingSmallAmountsOfComplexNucleicAcids”(代理人案号92171-5039US),提交于2012年4月16日;美国专利申请号13/447,087,标题为“ProcessingAndAnalysisOfComplexNucleicAcidSequenceData”(代理人案号92171-5041US),提交于2012年4月13日;美国专利申请号13/649,966,标题为“IdentificationOfDNAFragmentsAndStructuralVariations”(代理人案号92171-002510US),提交于2012年10月11日;美国专利申请号13/591,723,标题为“PhasingOfHeterozygousLociToDetermineGenomicHaplotypes”(代理人案号92171-002410US),提交于2012年8月22日;和美国专利申请号13/591,741,标题为“AnalyzingGenomeSequencingInformationToDetermineLikelihoodOfCo-SegregatingAllelesOnHaplotypes”(代理人案号92171-002420US),提交于2012年8月22日,其公开通过提述以其整体并入本文。专利技术背景自从1978年的第一例出生以来,世界范围内已经有超过5百万的婴儿通过体外受精(IVF)出生。难以确定精确的数字,但是经估算目前每年有350,000个婴儿通过IVF出生。预期该数字上升,因为较大的母亲年龄与降低的受精率相关,且在发达国家,女性继续推迟分娩到更晚的年纪。在95%的IVF方案中,没有进行胚胎的诊断测试(http://www.sart.org/find_frm.html)。先前怀孕困难的夫妻或那些希望避免高渗透度遗传性疾病的传播的夫妻通常选择进行植入前遗传诊断(PGD)。PGD涉及对来自3天胚胎的1个细胞或5-6天的胚泡期的高达10个细胞的活组织检查及随后的遗传分析。目前,这是用于易位(translocation)和正确的染色体拷贝数的任一测定法,即对于每种特定的遗传疾病设计并验证的独特测试,或两者的组合。重要的是,这些方法没有一个能够检测尚未与具体疾病相关的从头(denovo)突变或变异。目前,可用于体外受精胚胎的植入前遗传诊断(PGD)的唯一方法是那些检测大的基因组变化或单基因病症的方法。这些方法对于大量潜在的基因组缺陷可以是察觉不到的。尽管文献中关于IVF在分娩缺陷中的角色存在一些争议,两项近期研究声称在通过IVF出生的儿童中看到了升高的发病率,其可能是由这些不育父母中过多的遗传缺陷所致。另外,后期的母亲年龄已经与非整倍体胚胎的增加相关,而后期的父亲年龄已经与胚胎的从头突变相关。许多近期的大规模测序研究已经发现,分散于许多不同基因的从头变异可能是很大一部分自闭症病例,以及许多其它罕见的先天性病症的原因。这些研究提示我们可以做得更多以试着改善IVF新生儿的健康。目前对PGD的靶向方法将遗漏胚胎DNA序列中许多重要的功能变化。重要的是,由于从头突变,即便是对父母双方的全面的基于WGS的载体筛查也无法进行靶向植入前或产前诊断。最近的报道发现,比起知道没有功能的区域,从头突变更经常影响基因组的功能区域,进一步强调了能在PGD中鉴定这一类基因组变异的重要性。此外,突变的鉴定可用于除IVF之外的各种用途。因此,期望提供用于确定基因组中的突变的改进技术。专利技术简述实施方案提供系统,方法和仪器以进行定相(phasing)和连接(linking)过程,用于鉴定生物体的基因组的单体型(haplotype),其可以涉及鉴定基因组中的变异。这些变异可以包括半合子缺失(即在一个单体型中的给定位点/区域的缺失),在两个单倍体中区域中的缺失,或插入。实施方案可以使用长片段读出(longfragmentread,LFR)以确定两个读出当它们具有相同的标签(例如,来自相同的等分试样)和彼此在特定的距离之内(例如,50Kb)时可能来自同一个长片段,。在一个实例中,实施方案针对解析(resolving)碱基识别(basecall)(例如,从无识别到碱基识别或到正确的碱基识别)。通过进行定相以确定单体型,实施方案可以提供更好的精确度。接着,通过利用读出与对应单体型的任意读出的共享标签(例如,共享等分试样),可以使用长片段读出(LFR)技术来解析碱基识别。将基因座连接到多个杂合基因座(het)的单体型可以帮助利用所述基因座处可用的多个读出。在另一个实例中,可以使用长片段读出(LFR)技术来鉴定缺失。对于半合子缺失,可以将区域连接到一个或多个hets,而特定单体型的标签可以用于鉴定该区域中的哪些读出对应哪个单体型。以这种方式,由于可以鉴定特定单体型的读出,当对于特定单体型的读出量较低时,可以以较大的精确度确定半合子缺失。这种确定比使用该区域中的所有读出的量可以给出更大的精确性。在另一个实例中,可以使用脉冲(pulse)的定相率(phaserate)(由具有相同标签的序列读出覆盖的参考基因组的连续区段)来鉴定大型缺失。可以从区域的脉冲总数和覆盖经定相的het的脉冲数确定区域的定相率。可以在定相率足够低的情况下鉴定缺失(Adeletioncanbeidentifiedwiththephasingrateissufficientlylow)。其它实施方案针对与本文所述的方法相关的系统,便携式消费设备,以及计算机可读介质。可以参考以下详细描述和附图,获得对本专利技术的实施方案的性质和优点更好的理解。附图简述图1的流程图显示了根据本专利技术的实施方案用于获得短序列读出以组装为长片段的方法100。图2示出了图表,其显示了根据本专利技术的实施方案的方法100的步骤。图3示出了根据本专利技术的实施方案的测序表现的比较的表300。图4是根据本专利技术的实施方案用于将第一个基因座连接到一个或多个het的方法400的流程图。图5是根据本专利技术的实施方案用于将第一个基因座连接到重叠群(contig)的方法500的流程图。图6是根据本专利技术的实施方案从自生物体获得的样品确定该生物体的单体型的方法600的流程图。图7A示出了具有不一致数据的连接矩阵(connectivitymatrix)700。图7B示出了具有低读出数量的连接矩阵750。图8A示出了将基因座820连接到多个het的过程的图表800。图8B显示了根据本专利技术的实施方案,使用将基因座连接到多个het来将无识别(N)转变为碱基识别的过程。图9A是矩阵900,显示了将该基因座连接到两个单体型。图9B是矩阵950,显示了将该基因座连接到两个单体型。图10示出了根据本专利技术的实施方案对于半合子缺本文档来自技高网...

【技术保护点】
一种从自生物体获得的样品确定生物体的单体型的方法,所述方法包括:在计算机系统上接收来自所述生物体的多个核酸分子的测序的序列数据,其中所述多个核酸分子的每一个的序列数据包括:所述核酸分子的至少一部分的一个或多个序列读出,和对应于所述一个或多个序列读出的标签,所述标签指示所述核酸分子的来源;对于所述多个核酸分子的每一个:通过所述计算机系统将所述核酸分子的至少一个序列读出定位到参考基因组;鉴定第一多个第一het,每个第一het具有各自的第一等位基因和各自的第二等位基因;通过所述计算机系统确定所述第一多个第一het中的第一和第二等位基因的定相以确定第一重叠群,所述第一重叠群将所述第一等位基因指定为对应于第一单体型,并将所述第二等位基因指定为对应于第二单体型,通过所述计算机系统,将第一基因座连接到所述第一重叠群,所述连接包括:鉴定至少两个所述第一het,其具有与定位到所述第一基因座的序列读出共享标签的序列读出;和对于所述第一重叠群的第一单体型,将第一碱基解析为第一基因座的第一基因组位置,基于所述第一碱基的解析在多个基因座序列读出上的第一基因组位置,每一个所述基因座序列读出与至少一个包括第一单体型的第一等位基因的het序列读出共享标签,其中所述het序列读出覆盖至少两个所述第一het。...

【技术特征摘要】
【国外来华专利技术】2013.10.01 US 61/885,4701.一种从自生物体获得的样品确定生物体的单体型的方法,所述方法包括:在计算机系统上接收来自所述生物体的多个核酸分子的测序的序列数据,其中所述多个核酸分子的每一个的序列数据包括:所述核酸分子的至少一部分的一个或多个序列读出,和对应于所述一个或多个序列读出的标签,所述标签指示所述核酸分子的来源;对于所述多个核酸分子的每一个:通过所述计算机系统将所述核酸分子的至少一个序列读出定位到参考基因组;鉴定第一多个第一het,每个第一het具有各自的第一等位基因和各自的第二等位基因;通过所述计算机系统确定所述第一多个第一het中的第一和第二等位基因的定相以确定第一重叠群,所述第一重叠群将所述第一等位基因指定为对应于第一单体型,并将所述第二等位基因指定为对应于第二单体型,通过所述计算机系统,将第一基因座连接到所述第一重叠群,所述连接包括:鉴定至少两个所述第一het,其具有与定位到所述第一基因座的序列读出共享标签的序列读出;和对于所述第一重叠群的第一单体型,将第一碱基解析为第一基因座的第一基因组位置,基于所述第一碱基的解析在多个基因座序列读出上的第一基因组位置,每一个所述基因座序列读出与至少一个包括第一单体型的第一等位基因的het序列读出共享标签,其中所述het序列读出覆盖至少两个所述第一het。2.权利要求1的方法,其中定位到所述第一基因座的至少一个所述序列读出包括在第一基因组位置处不同于所述参考基因组的碱基。3.权利要求1的方法,其中所述连接包括:对于每个单体型,对于所述第一基因座处的多个碱基识别,计算第一het间的共享标签的计数的总和。4.权利要求1的方法,其中所述解析仅使用与来自至少最小数量的het的het序列读出共享标签的基因座序列读出,所述最小数量大于1。5.权利要求1的方法,进一步包括:鉴定第一数量的共享标签,每个共享标签对应:定位到第一基因座的一个或多个序列读出,和定位到所述第一重叠群的至少一个第一het的至少一个序列读出,所述第一基因座不是所述第一多个第一het中的一个;通过所述计算机系统,基于共享标签的第一数量比标签的阈值数量大,将所述第一基因座连接到所述第一重叠群。6.权利要求5的方法,其中每个共享的标签对应于定位到至少最小数量的het的至少一个测序读出,所述最小数量大于1。7.权利要求5的方法,其中对于与所述第一基因座的序列读出共享标签的每个第一het,共享标签的第一数量包括标签的计数。8.权利要求5的方法,其中所述第一重叠群的至少一个第一het与所述第一重叠群的末端相距在阈值距离之内。9.权利要求5的方法,进一步包括:动态确定标签的阈值数量。10.权利要求9的方法,其中基于以下一项或多项动态确定标签的阈值数量:样品中的细胞数量,可能的标签数量,对应标签的核酸分子量,以及进行的测序深度。11.权利要求1的方法,其中所述第一het在所述第一基因座的指定距离之内。12.权利要求1的方法,进一步包括:基于所述第一重叠群在所述第一基因座周围的窗内的鉴定,使用所述第一重叠群以连接到所述第一基因座。13.权利要求12的方法,进一步包括:基于所述第一重叠群满足一个或多个标准的鉴定,使用所述第一重叠群以连接到所述第一基因座。14.权利要求13的方法,其中所述一个或多个标准包括作为...

【专利技术属性】
技术研发人员:BG克马尼R德马纳克BA彼得斯
申请(专利权)人:考利达基因组股份有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1