链接的双条形码插入构建制造技术

技术编号:37981594 阅读:6 留言:0更新日期:2023-06-30 09:56
当代基因测序技术,包括“下一代测序”技术,可以包括对靶多核苷酸的多个片段进行测序。然而,现有测序技术的局限性,以及天然多核苷酸的经常重复或以其他方式难以测序的结构,意味着生成准确的序列可能是困难的和/或昂贵的。本文提供的方法包括在其它测序过程之前,将双多核苷酸“条形码”与相邻引物序列一起插入到靶多核苷酸中。这些被插入的条形码可以通过向靶中添加“噪声”来提高为靶生成的序列的准确性,从而允许后续的测序技术(例如,对齐、缝合等)更准确地估计“靶加条形码”序列。引物可以使片段在靶内对应于其他序列开端的点开始,便于将序列末端缝合在一起。然后可以去除条形码以提供靶多核苷酸的序列。条形码以提供靶多核苷酸的序列。条形码以提供靶多核苷酸的序列。

【技术实现步骤摘要】
【国外来华专利技术】链接的双条形码插入构建

技术介绍

[0001]早期的DNA测序技术(诸如链终止法)为读取单个DNA片段提供了可靠的解决方案。参见F
·
桑格等人(1977),使用链终止抑制剂进行DNA测序(DNA sequencing with chain

terminating inhibitors),《美国国立科学院院报(Pro.Nati.Acad.Sci)》74,5463

5467。虽然这些第一代技术针对对靶基因测序是有效的,但将其应用于整个染色体或基因组的测序是成本高及昂贵的。例如,人类基因组的第一次测序——使用桑格方法完成——花费了数亿美元,并且花了10多年时间才完成。这种高成本主要是由于第一代测序方法的顺序性;每个片段必须被单独读取和人工组装以构建完整的基因组。
[0002]下一代测序(Next Generation Sequencing,NGS)技术通过并行化DNA片段读取,显著降低了DNA测序的成本。一些NGS方法能够同时执行数百万个序列读取,在几小时内生成数百万个碱基对的数据。参见N
·
霍尔(2007),先进测序技术及其在微生物学中的广泛影响(Advanced sequencing technologies and their wider impact in microbiology),《实验生物学杂志(The Journal of Experimental Biology)》,209,1518

1525。已经提出了许多NGS技术,这些技术采用各种化学过程,使用不同的读取长度,并且已经证明了各种范围的准确性。参见M
·
梅兹可(2010),测序技术—下一代(Sequencing technologies——the next generation),《自然评论:遗传学(Nature Reviews,Genetics)》,第11卷,31

46;另参见J
·
申杜雷等人(2008),下一代DNA测序(Next

generation DNA sequencing),《自然评论:生物技术(Nature Reviews,Biotechnology)》,第26卷,第10期,1135

1145。
[0003]NGS方法通常涉及将DNA样本分离成片段,并并行读取这些片段的核苷酸序列。从该过程生成的结果数据包括这些片段中每一个的读取数据,其包含核苷酸碱基对(G,A,T,C)的连续序列。然而,尽管给定片段读长中碱基对的排列是已知的,但片段读长相对于彼此的排列却不是已知的。因此,要确定较大DNA链的序列(诸如基因或染色体),必须对来自多个片段的读取数据进行对齐。这种对齐是相对于其他读取片段的,并且可能包括重叠片段,这取决于所使用的特定NGS方法。一些NGS方法使用计算技术和软件工具来执行读取数据对齐。
[0004]准确的序列读长对齐是识别样本基因组中基因变异的第一步。基因变异的多样性会导致对齐算法和技术将序列读长与基因组中的不正确位置进行对齐。此外,用于生成序列读长的读取过程可能很复杂,容易出现错误。因此,许多序列读长对齐技术可能使基因组内的序列读长不一致,这可能导致在后续分析中对变异体的检测不正确。
[0005]一旦读取数据被对齐,则可以分析该对齐的数据以确定基因座位、基因或整个染色体的核苷酸序列。然而,重叠的读取片段之间的核苷酸值差异可能指示变异体(诸如单核苷酸多态性(Single

Nucleotide Polymorphism,SNP)或插入或缺失(Insertion Or Deletion,INDEL)以及其他可能的变异体)。例如,如果在特定座位重叠的读取片段不同,则这些差异可能指示存在杂合子SNP。作为另一个示例,如果重叠的读取片段在单个核苷酸处相同,但与参考基因组不同,则该基因座位或基因可以是相对于该参考基因组的纯合子SNP。准确确定此类变异体是基因组测序的一个重要方面,因为这些变异体可能表示突变、
导致特定疾病的基因和/或用于对特定DNA样本进行基因型确定(genotype)。
[0006]近年来,对高效低成本DNA测序的需求不断增加。尽管NGS技术在第一代技术的基础上有了显著的改进,但NGS技术的高度并行性提出了早期测序技术中未遇到的挑战。读取过程中的错误可能会对结果读取数据的对齐产生不利影响,并可能随后导致不准确的序列确定。此外,读取错误可能导致变异体的错误检测。
[0007]对整个人类基因组和个体基因组的更全面和准确的理解可以改进医疗诊断和治疗。NGS技术已经减少了对个体基因组测序的时间和成本,这为医学和遗传学在以前不可行的方面的重大改进提供了潜力。了解人类之间的基因变异为理解基因紊乱和孟德尔疾病提供了一个框架。然而,发现这些基因变异取决于可靠的读取数据和准确的读取序列对齐。

技术实现思路

[0008]在第一方面,提供了一种方法,其包括:(i)将探针添加到包含靶多核苷酸的样本,其中该探针包括有效载荷多核苷酸和插入载体,其中该有效载荷多核苷酸包括第一多核苷酸条形码、反向引物、正向引物和第二多核苷酸条形码,并且其中,该插入载体将有效载荷多核苷酸插入到靶多核苷酸中;以及(ii)施用扩增剂以生成:(1)该靶多核苷酸的第一拷贝,其中插入有该有效载荷多核苷酸,从该反向引物开始,使得第一拷贝包括靠近第一拷贝的末端的第一多核苷酸条形码的互补物(complement),和(2)靶多核苷酸的第二拷贝,其中插入有有效载荷多核苷酸,从该正向引物开始,使得第二拷贝包括靠近第二拷贝的末端的第二多核苷酸条形码的互补物。
[0009]该插入载体可以包括Tn5转座酶。该插入载体可以包括CRISPR

Cas9。
[0010]在将该探针添加到样本之后,可以对该样本的至少一部分进行多次测序,以获得靶多核苷酸的第一拷贝的读长和靶多核苷酸的第二拷贝的读长。可以基于第一拷贝的读长和第二拷贝的读长来确定靶多核苷酸的序列。确定靶多核苷酸的序列可以包括基于第一拷贝的读长和第二拷贝的读长确定靶多核苷酸的初步序列,并从该初步序列中去除第一多核苷酸条形码和第二多核苷酸条形码的序列。确定初步序列可以包括将第一个拷贝的末端与第二个拷贝的末端缝合(stitch)到一起。
[0011]可以对该探针进行测序以生成探针序列,并且基于探针序列,可以确定第一多核苷酸条形码和第二多核苷酸条形码的相应序列。可以确定第一多核苷酸条形码和第二多核苷酸条形码彼此对应。
[0012]可以响应于确定第一拷贝包含靠近第一拷贝的末端的第一多核苷酸条形码的所确定的序列并且第二拷贝包含靠近第二拷贝的末端的第二多核苷酸条形码的所确定的序列,来执行将第一拷贝的末端与第二拷贝的末端缝合在一起。
[0013]施用扩增剂之后,可以将额外的多个多核苷酸条形码插入到靶多核苷酸中,以获得其中插入了该额外的多个多核苷酸条形码的靶多核苷酸的额外拷贝。在将该额本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:将探针添加到包含靶多核苷酸的样本中,其中,所述探针包括有效载荷多核苷酸和插入载体,其中,所述有效载荷多核苷酸包括第一多核苷酸条形码、反向引物、正向引物和第二多核苷酸条形码,并且其中,所述插入载体将所述有效载荷多核苷酸插入到所述靶多核苷酸;以及施用扩增剂以生成:(i)所述靶多核苷酸的第一拷贝,其中插入有所述有效载荷多核苷酸,从所述反向引物开始,使得所述第一拷贝包括靠近所述第一拷贝的末端的所述第一多核苷酸条形码的互补物,和(ii)所述靶多核苷酸的第二拷贝,其中插入有所述有效载荷多核苷酸,从所述正向引物开始,使得所述第二拷贝包括靠近所述第二拷贝的末端的所述第二多核苷酸条形码的互补物。2.根据权利要求1所述的方法,其中,所述插入载体包含Tn5转座酶。3.根据权利要求1所述的方法,其中,所述插入载体包括CRISPR

Cas9。4.根据前述权利要求中任一项所述的方法,进一步包括:在将所述探针添加到所述样本之后,对所述样本的至少一部分进行多次测序以获得所述靶多核苷酸的第一拷贝的读长和所述靶多核苷酸的第二拷贝的读长;基于所述第一拷贝的读长和所述第二拷贝的读长确定所述靶多核苷酸的序列,其中,确定所述靶多核苷酸的序列包括:基于所述第一拷贝的读长和所述第二拷贝的读长确定所述靶多核苷酸的初步序列;以及从所述初步序列中去除所述第一多核苷酸条形码和所述第二多核苷酸条形码的序列。5.根据权利要求4所述的方法,其中,确定所述初步序列包括将所述第一拷贝的末端与所述第二拷贝的末端缝合在一起。6.根据权利要求5所述的方法,进一步包括:对所述探针进行测序以生成探针序列;以及基于所述探针序列,确定所述第一多核苷酸条形码和所述第二多核苷酸条形码的相应序列并确定所述第一多核苷酸条形码和所述第二多核苷酸条形码彼此对应,其中,响应于确定所述第一拷贝包含靠近所述第一拷贝的末端的所述第一多核苷酸条形码的所确定的序列并且所述第二拷贝包含靠近所述第二拷贝的末端的所述第二多核苷酸条形码的所确定的序列,来执行将所述第一拷贝的末端与所述第二拷贝的末端缝合在一起。7.根据权利要求4所述的方法,进一步包括:在施用所述扩增剂之后,将额外的多个多核苷酸条形码插入到所述靶多核苷酸中,以获得其中插入有所述额外的多个多核苷酸条形码的靶多核苷酸的额外拷贝;以...

【专利技术属性】
技术研发人员:A
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1