鉴定基因组中的变异的定相和连接方法技术

技术编号：13280065 阅读：136 留言：0更新日期：2016-05-19 04:12

长片段读出技术可以用于鉴定缺失并解析碱基识别，其通过利用读出与任意对应于单体型的杂合基因座(het)的读出的共享标签(例如，共享的等分试样)进行。例如，将基因座连接到多个het的单体型可以增加在所述基因座处的可用读出，用于确定特定单体型的碱基识别。对于半合子缺失，可以将某个区域连接到一个或多个het，并且特定单体型的标签可以用于鉴定区域中的哪些读出对应哪个单体型。以这种方式，由于可以鉴定特定单体型的读出，可以确定半合子缺失。此外，可以使用脉冲的定相率鉴定大缺失。可以在定相率足够低的情况下鉴定缺失，并可以使用其它标准。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】鉴定基因组中的变异的定相和连接方法对相关申请的交叉引用本申请要求2013年10月1日提交的美国临时申请号61/885,470，标题为“PHASINGANDLINKINGPROCESSESTOIDENTIFYVARIATIONSINAGENOME”的优先权，并是该申请的非临时申请，通过提述将其整体内容并入本文用于所有目的。本申请涉及共同拥有的美国专利申请号13/448,279，标题为“SequencingSmallAmountsOfComplexNucleicAcids”(代理人案号92171-5039US)，提交于2012年4月16日；美国专利申请号13/447,087，标题为“ProcessingAndAnalysisOfComplexNucleicAcidSequenceData”(代理人案号92171-5041US)，提交于2012年4月13日；美国专利申请号13/649,966，标题为“IdentificationOfDNAFragmentsAndStructuralVariations”(代理人案号92171-002510US)，提交于2012年10月11日；美国专利申请号13/591,723，标题为“PhasingOfHeterozygousLociToDetermineGenomicHaplotypes”(代理人案号92171-002410US)，提交于2012年8月22日；和美国专利申请号13/591,741，标题为“AnalyzingGenomeSequencingInformationToDetermineLikelihoodOfCo-S...

【技术保护点】
一种从自生物体获得的样品确定生物体的单体型的方法，所述方法包括：在计算机系统上接收来自所述生物体的多个核酸分子的测序的序列数据，其中所述多个核酸分子的每一个的序列数据包括：所述核酸分子的至少一部分的一个或多个序列读出，和对应于所述一个或多个序列读出的标签，所述标签指示所述核酸分子的来源；对于所述多个核酸分子的每一个：通过所述计算机系统将所述核酸分子的至少一个序列读出定位到参考基因组；鉴定第一多个第一het，每个第一het具有各自的第一等位基因和各自的第二等位基因；通过所述计算机系统确定所述第一多个第一het中的第一和第二等位基因的定相以确定第一重叠群，所述第一重叠群将所述第一等位基因指定为对应于第一单体型，并将所述第二等位基因指定为对应于第二单体型，通过所述计算机系统，将第一基因座连接到所述第一重叠群，所述连接包括：鉴定至少两个所述第一het，其具有与定位到所述第一基因座的序列读出共享标签的序列读出；和对于所述第一重叠群的第一单体型，将第一碱基解析为第一基因座的第一基因组位置，基于所述第一碱基的解析在多个基因座序列读出上的第一基因组位置，每一个所述基因座序列读出与至少一个包括第一单体型...

【技术特征摘要】
【国外来华专利技术】2013.10.01 US 61/885,4701.一种从自生物体获得的样品确定生物体的单体型的方法，所述方法包括：在计算机系统上接收来自所述生物体的多个核酸分子的测序的序列数据，其中所述多个核酸分子的每一个的序列数据包括：所述核酸分子的至少一部分的一个或多个序列读出，和对应于所述一个或多个序列读出的标签，所述标签指示所述核酸分子的来源；对于所述多个核酸分子的每一个：通过所述计算机系统将所述核酸分子的至少一个序列读出定位到参考基因组；鉴定第一多个第一het，每个第一het具有各自的第一等位基因和各自的第二等位基因；通过所述计算机系统确定所述第一多个第一het中的第一和第二等位基因的定相以确定第一重叠群，所述第一重叠群将所述第一等位基因指定为对应于第一单体型，并将所述第二等位基因指定为对应于第二单体型，通过所述计算机系统，将第一基因座连接到所述第一重叠群，所述连接包括：鉴定至少两个所述第一het，其具有与定位到所述第一基因座的序列读出共享标签的序列读出；和对于所述第一重叠群的第一单体型，将第一碱基解析为第一基因座的第一基因组位置，基于所述第一碱基的解析在多个基因座序列读出上的第一基因组位置，每一个所述基因座序列读出与至少一个包括第一单体型的第一等位基因的het序列读出共享标签，其中所述het序列读出覆盖至少两个所述第一het。2.权利要求1的方法，其中定位到所述第一基因座的至少一个所述序列读出包括在第一基因组位置处不同于所述参考基因组的碱基。3.权利要求1的方法，其中所述连接包括：对于每个单体型，对于所述第一基因座处的多个碱基识别，计算第一het间的共享标签的计数的总和。4.权利要求1的方法，其中所述解析仅使用与来自至少最小数量的het的het序列读出共享标签的基因座序列读出，所述最小数量大于1。5.权利要求1的方法，进一步包括：鉴定第一数量的共享标签，每个共享标签对应：定位到第一基因座的一个或多个序列读出，和定位到所述第一重叠群的至少一个第一het的至少一个序列读出，所述第一基因座不是所述第一多个第一het中的一个；通过所述计算机系统，基于共享标签的第一数量比标签的阈值数量大，将所述第一基因座连接到所述第一重叠群。6.权利要求5的方法，其中每个共享的标签对应于定位到至少最小数量的het的至少一个测序读出，所述最小数量大于1。7.权利要求5的方法，其中对于与所述第一基因座的序列读出共享标签的每个第一het，共享标签的第一数量包括标签的计数。8.权利要求5的方法，其中所述第一重叠群的至少一个第一het与所述第一重叠群的末端相距在阈值距离之内。9.权利要求5的方法，进一步包括：动态确定标签的阈值数量。10.权利要求9的方法，其中基于以下一项或多项动态确定标签的阈值数量：样品中的细胞数量，可能的标签数量，对应标签的核酸分子量，以及进行的测序深度。11.权利要求1的方法，其中所述第一het在所述第一基因座的指定距离之内。12.权利要求1的方法，进一步包括：基于所述第一重叠群在所述第一基因座周围的窗内的鉴定，使用所述第一重叠群以连接到所述第一基因座。13.权利要求12的方法，进一步包括：基于所述第一重叠群满足一个或多个标准的鉴定，使用所述第一重叠群以连接到所述第一基因座。14.权利要求13的方法，其中所述一个或多个标准包括作为...

【专利技术属性】
技术研发人员：BG克马尼，R德马纳克，BA彼得斯，
申请(专利权)人：考利达基因组股份有限公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人