当前位置: 首页 > 专利查询>X基因组公司专利>正文

用于测定序列的系统和方法技术方案

技术编号:31900584 阅读:15 留言:0更新日期:2022-01-15 12:35
提供了用于确定来自受试者的靶聚合物的至少一部分的序列的系统和方法。获得包括一个或多个图像文件的数据集。对于所述一个或多个图像文件中的每个图像文件,至少部分基于每个相应的多个荧光团定位确定组合的多个定位。组合的多个定位中的每个定位包括靶聚合物位置标识和空间定位。所述多个定位被分段成一个或多个靶聚合物链。每个靶聚合物链对应于定位和靶聚合物位置标识的相应子集。使用每个靶聚合物链的每个定位子集组装相应的靶聚合物序列,从而提供一组靶聚合物序列。从而提供一组靶聚合物序列。

【技术实现步骤摘要】
【国外来华专利技术】用于测定序列的系统和方法
[0001]相关申请的交叉引用
[0002]本申请是2018年11月29日提交的标题为“Sequencing by Emergence”的美国专利申请第16/205,155号的部分连续申请,所述美国专利申请要求2017年11月29日提交的标题为“Sequencing by Emergence”的美国专利申请第62/591,850号的优先权,所述专利申请据此通过引用并入。


[0003]本公开总体上涉及通过探针与一种或多种多核苷酸的瞬时结合对核酸进行测序的系统和方法。

技术介绍

[0004]DNA测序首先通过基于凝胶电泳的方法:双脱氧链终止法(例如,Sanger等人,Proc.Natl.Acad.Sci.74:5463

5467,1977)以及化学降解方法(例如,Maxam等人,Proc.Natl.Acad.Sci.74:560

564,1977)成为现实。这些核苷酸测序方法既耗时又昂贵。然而,前者导致了人类基因组的首次测序,尽管花费了十多年和数亿美元。
[0005]随着个性化医疗保健的梦想越来越接近实现,人们越来越需要廉价的大规模方法来对个体人类基因组进行测序(Mir,Sequencing Genomes:From Individuals to Populations,Briefings in Functional Genomics and Proteomics,8:367

378,2009)。几种避免凝胶电泳(并且随后价格更低)的测序方法已被发展为“下一代测序”。一种使用可逆终止子(如由Illumina Inc.实施的)的这样的测序方法占主导地位。Sanger测序的最先进形式和目前占主导地位的Illumina技术中使用的检测方法涉及荧光。检测单核苷酸插入的其它可能手段包括使用质子释放(例如,通过场效应晶体管、通过纳米孔的离子电流和电子显微镜)的检测。Illumina化学包括使用可逆终止子循环添加核苷酸(Canard等人,Metzker Nucleic Acids Research 22:4259

4267,1994),所述核苷酸具有荧光标记物(Bentley等人,Nature 456:53

59,2008)。Illumina测序从克隆扩增单个基因组分子开始,需要大量前期样品处理来将靶基因组转化为文库,然后将所述文库克隆扩增成簇。
[0006]然而,有两种方法后来进入市场,在测序之前避开了对扩增的需要。这两种新方法都是在单分子DNA上进行荧光合成测序(SbS)。第一种方法,来自HelicosBio(现为SeqLL),通过可逆终止进行逐步SbS(Harris等人,Science,320:106

9,2008)。第二种方法(来自Pacific Biosciences的SMRT测序法)在末端磷酸上使用标记物,一种掺入核苷酸的反应的天然离去基团,这使得可以连续进行测序,而不需要交换试剂。这种方法的缺点之一是通量低,因为检测器需要保持固定在一个视场上(例如,Levene等人,Science 299:682

686,2003和Eid等人,Science,323:133

8,2009)。与Pacific Bioscience测序的有点类似的方法是由Genia(现为Roche的一部分)开发的方法,通过纳米孔而不是通过光学方法检测SbS。
[0007]最常用的测序方法在读取长度上受到限制,这增加了测序的成本和组装读取结果的难度。通过Sanger测序获得的读取长度在1000个碱基的范围内(例如,Kchouk等人,
Biol.Med.9:395,2017)。Roche 454测序和离子洪流(Ion Torrent)两者均具有在数百个碱基的范围内的读取长度。Illumina测序最初以大约25个碱基的读数开始,现在通常为150

300个碱基对的读数。然而,由于需要为读取长度的每个碱基提供新鲜试剂,对250个碱基而不是25个碱基进行测序需要多10倍的时间和多10倍的昂贵试剂。最近,Illumina仪器的标准读取长度已经减少到约150个碱基,大概是因为它们的技术受到定相(phasing)的影响(簇内分子不同步),随着读取时间的延长,会引入误差。
[0008]商业系统中可能的最长读取长度是通过Oxford Nanopores Technology(ONT)的纳米孔链测序和Pacific Bioscience(PacBio)测序(例如,Kchouk等人,Biol.Med.9:395,2017)获得的。后者通常具有长度平均约10,000个碱基的读数,而前者在非常罕见的情况下能够获得长度为数十万个碱基的读数(例如,Laver等人,Biomol.Det.Quant.3:1

8,2015)。虽然这些较长的读取长度在比对方面是可取的,但它们是以牺牲准确性为代价的。准确度通常很低,因此对于大多数人类测序应用来说,这些方法只能作为Illumina测序的补充,而不能作为独立的测序技术。此外,对于常规的人类基因组规模测序,现有的长读技术的通量太低。
[0009]除了ONT和PacBio测序以外,还有存在许多本身不是测序技术而是样品制备方法的方法,它们补充了Illumina短读取测序技术,为构建更长读取提供了一个支架。在这些方法当中,一种方法是由10X Genomics开发的基于液滴的技术,所述技术将液滴中的100

200kb片段(例如,提取后片段的平均长度范围)分离出来,并将其加工成较短长度片段的文库,每个片段包含序列标识符标签,该标签对其所源自的100

200kb具有特异性,在对来自多个液滴的基因组进行测序时,所述标签可被去卷积成约50

200Kb的桶(Goodwin等人,Nat.Rev.Genetics 17:333

351,2016)。另一种方法是由Bionano Genomics开发的,所述方法通过暴露于切刻核酸内切酶来拉伸并诱发DNA中的切刻。该方法荧光检测切刻点,以提供分子的图谱或支架。这种方法目前还没有发展到有足够高的密度来帮助组装基因组,但其仍然提供了基因组的直接可视化,并且能够检测大的结构变异和确定长程单倍型(long

range haplotypes)。
[0010]尽管开发了不同的测序方法,而且测序成本呈普遍下降趋势,但人类基因组的大小仍然导致患者的测序成本居高不下。单个人的基因组由46条染色体组成,其中最短的为约50兆碱基,最长的为250兆碱基。NGS测序方法仍有许多影响性能的问题,包括对参考基因组的依赖,这可大大增加分析所需的时间(例如,如Kulkarni等人,Comput Struct Biotechnol J.15:471

477,2017中所论述的)。...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种确定来自物种的受试者的靶聚合物的至少一部分的序列的方法,所述方法包括:在包括至少一个处理器和存储由所述至少一个处理器执行的至少一个程序的存储器的计算机系统中,所述至少一个程序包括用于以下的指令:a)以电子形式获得包括一个或多个图像文件的数据集;b)对于所述一个或多个图像文件中的每个图像文件,至少部分地基于每个相应的多个荧光团定位确定组合的多个定位,其中所述组合的多个定位中的每个定位包括靶聚合物位置标识和空间定位;c)将所述多个定位分段成一个或多个靶聚合物链,其中每个靶聚合物链对应于来自所述多个定位的相应的定位子集和靶聚合物位置标识的相应子集;以及d)使用每个相应的靶聚合物链的每个定位子集组装相应的靶聚合物,从而提供一组靶聚合物序列。2.如权利要求1所述的方法,其中所述确定(b)还包括将所述一个或多个图像文件应用于图像处理模型,其中所述图像处理模型:i)根据预定比对标准比对所述一个或多个图像文件;ii)对于所述一个或多个图像文件中的每个图像文件,确定相应的多个荧光团,其中每个荧光团的所述相应空间定位至少部分基于一个或多个点扩展函数;以及iii)对于所述一个或多个图像文件中的每个相应的图像文件,通过汇编所述多个荧光团来输出所述组合的多个定位。3.如权利要求2所述的方法,其中所述图像处理模型包括神经网络或基于最大似然的模型。4.如权利要求2所述的方法,其中所述组合的多个定位中的每个定位包括超分辨定位。5.如权利要求1所述的方法,其中所述分段(c)还包括将所述组合的多个定位应用于分段模型,其中所述分段模型:i)至少部分地基于所述组合的多个定位中每个定位的所述相应空间定位来确定一个或多个定位子集;以及ii)将相应的曲线与每个定位子集拟合,从而获得一条或多条拟合曲线,其中每条拟合曲线包括沿着相应的拟合曲线的相应的荧光团子集中的每个荧光团的定位。6.如权利要求5所述的方法,其中重复所述分段(c)至少一次。7.如权利要求1所述的方法,其中所述组装(d)还包括确定每个相应的靶聚合物序列的相应概率。8.如权利要求1所述的方法,所述方法还包括:e)通过将每个相应的靶聚合物序列与靶聚合物序列的组中的每隔一个靶聚合物序列进行比较来确定组合的靶聚合物序列。9.如权利要求1所述的方法,其中所述组装(d)还包括,对于每个靶聚合物链,将相应的定位子集应用于优化模型,以获得所述相应的靶聚合物序列。10.如权利要求9所述的方法,其中所述优化模型被定义为:最大化s∈S(log P(D|s)+log P(s),其中:S是一组长度为n的可能的靶聚合物序列,其中n对应于长度;
s是选自S的可能的靶聚合物序列,其中s的长度为n:D是每个靶聚合物链的定位集,其中所述定位集包括m个单独的定位;P(D|s)是给定可能的靶聚合物序列s时D定位集发生的可能性;以及P(s)是可能的靶聚合物序列s的先验概率。11.如权利要求10所述的方法,其中所述序列s的先验概率基于s的长度n被定义为:12.如权利要求10所述的方法,其中所述序列s的先验概率基于序列s的长度n和每个靶聚合物位置标识的非均匀概率分布被定义为:其中P
b
...

【专利技术属性】
技术研发人员:K
申请(专利权)人:X基因组公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1