精确序列信息及修饰碱基位置确定的方法技术

技术编号:7137313 阅读:212 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开确认核酸样本的序列和/或核酸样本中修饰碱基的位置的方法,该核酸样本以具有已知序列的核酸插入物的环状分子呈现,该方法包含获取至少两个插入样本单元的序列信息。在一些实施例中,本发明专利技术方法包括使用环状配对互锁分子获取序列信息。在一些实施例中,本发明专利技术方法包括通过比较核酸样本序列与核酸插入物的已知序列,计算核酸插入物序列的分数,及根据紧邻于核酸样本序列的重复序列上游或下游之一个或两个插入物的序列分数,接受或拒绝该核酸样本序列的重复序列。

【技术实现步骤摘要】
【国外来华专利技术】本案主张于2008年11月7日申请之美国暂时专利申请案第61/112,548号之优 先权,以及于2009年4月7日申请之美国暂时专利申请案第61/167,313号之优先权,两者 并入本文作为参考。专利技术所属的
本案涉及确定核酸序列的方法及确定核酸中修饰碱基位置的方法。 现有技术DNA测序技术的最近发展增加了在基因组层次上高度个人化、预防医学的可能性。 而且由一个或多个族群中的多个个体快速获取大量的序列信息的可能性,可在生物医学科 学上开辟基因组革命的新阶段。基因型间的单一碱基差异可产生实质的表型效应。例如已有超过300个突变确 认位于编码苯丙氨酸羟化酶(PAH)的基因中,该酶在苯丙氨酸代谢及蛋白质与神经递质的 生物合成中,将苯丙氨酸(phenylalanine)转换为酪氨酸(tyrosine),该突变造成酶活性 丧失及高苯丙氨酸症(hyperphenylalaninaemia)及苯酮尿症(phenylketonuria)的疾病 (如 Jennings et al. , Eur J Hum Genet 8,683—696 (2000))。序列信息可使用Sanger测序法获得,Sanger测序法中,标记的双脱氧基链终止序 列(dideoxy chain terminator)的核苷酸类似物并入大量的引物延伸反应中,分开不同长 度的产物并分析确定该并入的终止序列之相同性(如Sanger et al. ,Proc Natl Acad Sci USA 74, 5463-5467 (1997) ) 0确实有许多基因组序列依此技术被确定。然而以Sanger测序 获取序列信息的成本及速度受到限制。新的测序技术可以每日数兆碱基的惊人速度产生序列信息,每一个碱基的成本低 于 Sanger 测序(如 Kato,Int J Clin Exp Med 2,193-202 (2009))。但是,使用这些测序 技术所得的原始信息较传统的Sanger测序产生更多的错误。这是因为获得的信息来自于 个体DNA分子,而非一个庞大的族群。例如通过合成的单一分子测序中,因为装置错过一个微弱讯号、或者缺少来自荧 光染料脱色的信号、或因为聚合酶作用太快以致未被装置检测到,可能会略过一个碱基。所 有上述事件皆导致原始序列中的缺失错误。同样地,突变错误及插入错误也会因为潜在的 较微弱信号及较传统方法快速的反应等简单原因,更高频率地发生。低精确度的序列信息更难以组合(assemble)。在大规模测序中,例如测序一个完 整的真核基因组,其DNA分子被切成较小片段。这些片段同时被测序,然后组合所得的读 取,重新构筑原始样本DNA分子的完整序列。切成片段的过程可由例如机械性剪切或酶性 切断所达成。将序列的小读取组合成大的基因组需要片段的读取精确到足以正确地组合在一 起。这对于由Sanger法产生的原始测序信息通常是正确的,Sanger法可具有超过95%的 原始信息正确性。精确的单一分子测序技术可应用于检测核酸样本中的单一碱基修饰或突 变。然而,因为上述的限制,单一分子测序技术的原始信息精确度可能降低。个别读取原始序列的精确度可低至 60-80% (如 Harris et al.,Science 320 106-109 (2008)) 因此,提供精确的单一分子测序方法是有用的。而且,DNA甲基化在基因表达调节中扮演关键角色,例如,启动子处的甲基化通 常导致转录沉默(transcriptional silencing)。甲基化也已知是基因组印迹(genomic imprinting)及X染色体失活的必要机制。然而,辨识复杂的整个基因组甲基化概貌 (profile)的过程受到限制。因此以高通量确认DNA甲基化概貌的方法是有用的,而且此方 法也提供对序列的精确确认。
技术实现思路
在一些实施方案中,本专利技术提供确认核酸样本序列之方法,包括(a)提供环状核 酸分子,该分子包括至少一个插入样本单元,该插入样本单元包括核酸插入物及该核酸样 本,其中该插入物具有已知序列;(b)获取序列信息,该序列信息包括至少两个插入样本单 元,其中形成包含至少两个插入样本单元的核酸分子;(c)通过比较该插入物的序列与该 插入物中的已知序列,计算步骤(b)序列信息的至少两个插入物的序列的分数(score); (d)根据位于紧邻该核酸样本序列的重复序列的上游及下游之该插入物的一或两个序列的 分数,接受或拒绝步骤(b)所得之序列信息的核酸样本序列的至少两个重复序列;(e)汇 编一个接受序列组,该接受序列组包含步骤(d)中接受的核酸样本序列的至少一个重复序 列;及(f)使用该接受序列组,确认该核酸样本序列。在一些实施方案中,本专利技术提供一种系统,包括可操作连接于计算装置的测序装 置,该计算装置包括处理器、储存装置、汇流排系统(bus system)、及至少一个使用者界面 元件,该储存装置由包括操作系统、使用者界面软件、及使用说明的程序编码,该程序当由 该处理器执行时,视需要根据使用者输入,执行下述方法(a)从环状核酸分子获取序列信 息,该环状分子包括至少一个插入样本单元,该插入样本单元包括核酸插入物及核酸样本, 其中(i)该插入具有已知序列,(ii)该序列信息包括至少两个插入样本单元的序列,及 (iii)产生一核酸分子包含至少两个插入样本单元;(b)通过比较该插入物的序列与该插 入物的已知序列,计算步骤(a)的序列信息至少两个插入物的序列的分数;(c)根据紧邻于 该核酸样本序列的重复序列上游及下游的插入物的一或二个序列的分数,接受或拒绝步骤 (a)的序列信息中核酸样本序列的至少两个重复序列;(d)汇编一个接受序列组,该接受序 列组包括步骤(c)接受的核酸样本序列至少一个重复序列;及(e)使用该接受序列组确定 该核酸样本序列,其中,使用该系统的输出,产生至少一个(i)核酸样本的序列;或(ii)指 示在核酸样本中至少一个位置上有修饰碱基的标记。在一些实施方案中,本专利技术提供一种程式编码的储存装置,包括操作系统、使用者 界面软件及指示说明,当由下述操作系统的处理器运行时,即该操作系统包括可操作连接 于包括处理器、储存装置、汇排流系统及至少一个使用者界面元件以及选择性具有使用者 输入的计算装置的测序装置,该程序执行下述方法(a)从环状核酸分子获取序列信息,该 环状分子包含至少一个插入样本单元,该插入样本单元包括核酸插入物及核酸样本,其中 ⑴该插入物具有已知序列,( )该序列信息包括至少两个插入样本单元的序列,及(iii) 产生含至少两个插入样本单元的核酸分子;(b)通过比较该插入物的序列与该插入物的已 知序列,计算步骤(a)的序列信息至少两个插入物的序列的分数;(c)根据紧邻于该核酸样本序列的重复序列上游及下游的插入物的一或两个序列的分数,接受或拒绝步骤(a)之序 列信息的核酸样本序列的至少两个重复序列;(d)汇编接受序列组,该接受序列组包含步 骤(C)接受的核酸样本序列至少一个重复序列;及(e)使用该接受序列组,确认该核酸样本 序列,其中,该方法导致用于产生下述的输出,即至少一个(i)核酸样本的序列;或(ii)指 示在核酸样本中至少一个位置上有修饰碱基的标记。在一些实施方案中,本专利技术提供一种本文档来自技高网
...

【技术保护点】
一种确定核酸样本序列的方法,包括:  a.提供环状核酸分子,所述环状核酸分子包括至少一个插入样本单元,所述插入样本单元包括核酸插入物及所述核酸样本,其中所述插入物具有已知序列;  b.获取序列信息,所述序列信息包括至少两个插入样本单元的序列,其中产生包含至少两个插入样本单元的核酸分子;  c.通过比较所述插入物的序列与所述插入物中的已知序列,计算步骤(b)序列信息的至少两个插入物序列的分数(score);  d.根据位于紧邻所述核酸样本序列的重复序列的上游及下游的所述插入物的一个或二个序列的分数,接受或拒绝步骤(b)所得的序列信息的核酸样本序列的至少两个重复序列;  e.汇编接受序列组,所述接受序列组包含步骤(d)中接受的核酸样本序列的至少一个重复序列;及  f.使用所述接受序列组,确定所述核酸样本序列。

【技术特征摘要】
【国外来华专利技术】US61/112,5482008年11月7日所特别指明的要件及组合而了解及达成。前述的一般说明及下述的详细描述应了解仅为示例性的,如同所声明,不能用以 限制本发明。附图并入并构成本说明书的一部分,说明本发明的数个实施方式,与描述一起用 于解释本发明的原理。实施方式定义为了使本发明容易了解,定义各项名词如下。在此未定义的名词具有本发明所属 相关技术领域中具有通常知识者一般了解的意义。如”一”、”一个”及”该”并非仅表示单 一个体,可包括特定实例可用以说明的一般群组。此述学术用语用于说明本发明的特定实 施方案,但其除在权利要求中描述者,并非用于限制本发明。“核酸”包含寡核苷酸及多核苷酸。“杂交的高度严谨条件”表示两核酸彼此间必须具有高度同质性(homology)才能 进行杂交的条件。杂交的高度严谨条件例如在4X氯化钠/柠檬酸钠(SSC)中、65或70°C 下杂交,或在4X SSC及50%甲酰胺中、在约42或50°C下杂交,之后伴随至少一次、至少两 次、或至少三次在IX SSC中、65或70°C下洗涤。“解链温度(melting temperature) ”表示一半的核酸在溶液中为链解开(melted) 状态,另一半核酸为链未解开(immelted)状态时的温度,假设有足够的互补核酸存在。 在寡核苷酸存在超过互补序列的情形时,解链温度为一半的互补序列与该寡核苷酸连接 (anneal)的温度。当核酸插入物可形成发卡结构(hairpin)的情形时,解链温度为一半 的插入物为部分自我杂交的”发卡结构”时的温度。由于解链温度受条件影响,此述讨论 的寡核苷酸解链温度为在50mM氯化钠水溶液中、具有0.5μ M寡核苷酸时的解链温度。 解链温度可由多种本领域已知方法估算,例如使用最接近热平衡参数(Allawi et al., Biochemistry, 36,10581-10594 (1997))及标准的热力学方程计算。如果核酸分子中的一个位置具有一个独特序列及其长度与组成使互补寡核苷酸 具有可接受的解链温度,例如从45 V至70°C、从50 V至70°C、从45°C至65°C、从50 V至 65°C、从 55°C至 70°C、从 60°C至 70°C、从 55°C至 60°C、从 60°C至 65°C、或从 50°C至 55°C, 则该位置适合引物连接。[0033]“延伸引物、寡核苷酸、或核酸”表示在该引物、寡核苷酸、或核酸上添加至少一个 核苷酸。此包括以聚合酶(polymerase)或连接酶(Iigase)活性催化的反应。“测序引物”是可连接至核酸分子中适合引物连接及测序反应中延伸的位置,以产 生序列信息的寡核苷酸。当核酸插入物可部分自体杂交且自体杂交形式具有至少15°C的解链温度时,核酸 插入物可形成发卡结构(hairpin)。“突出(overhang),,为位于双链核酸分子或发卡结构末端的单链片段。“重复序列”为在一个核酸中出现超过一次以上的序列。当重复序列存在一个 核酸分子中时,所有该序列,包括第一次出现的序列,都认为是重复序列。重复序列包括 彼此反向互补(reverse complement)的序列,例如发生在环状配对互锁分子(circular pair-locked molecule)中。重复序列也包括非完全相同但衍生自相同序列的序列,例 如因为在合成中错误加入的事件或其它聚合酶的错误使序列不同,或者一开始相同或 完整的反向互补的序列,但因为过程中的修饰作用而使序列不同,例如因为光化学转化 (photochemical transition) ^MMiprlSl^hS (bisulfite treatment)白勺|^tf|5#ffl。当核酸插入物及核酸样本中没有其它插入的重复序列介于该核酸插入物及核酸 样本之间时,该核酸插入物及核酸样本紧邻于对方的上游或下游。在单链分子中,上游表示 5’端方向,下游表示3’端方向。在双链分子中,此极性可任意决定或可根据具方向性的组 成元件(例如启动子、编码序列等)的极性来决定,如果大多数的组成元件方向相同的话。 以RNA聚合酶开始合成的方向为下游确定启动子的极性。以从起始密码子向终止密码子的 方向为下游确定编码序列的极性。如果两个重复序列彼此为反向互补,或者其中之一或两者为彼此反向互补的衍生 物时,该两个重复序列彼此是正向及反向关系,具有相反的方向(orientation)。定为正向 的重复序列可任意决定或根据如前述该重复序列中组成元件的极性而确定。修饰碱基是除了腺嘌呤(adenine)、胸腺嘧啶(thymine)、鸟嘌呤(guanine)、胞嘧 啶(cytosine)或尿嘧啶(uracil)以外,可位于核酸或核苷酸中如前述的一个或一个以上 的碱基。多义密码子(ambiguity code)表示一个序列中的碱基组合的密码子,换句话说, 任何其表示的碱基皆可存在,例如Y =嘧啶(C、U或T) ;R =嘌呤(A或G) ;W =弱(A、T或 U) ;S=强(G 或 C) ;K=酮基(T、U 或 G) ;M=胺基(C 或 A) ;D =非 C(A、G、T 或 U) ;V =非 T 或 U(A、C 或 G) ;H =非 G(A、C、T 或 U) ;B =非 A(C、G、T 或 U)。位置权重矩阵(position weight matrix)是行(row)对应核酸序列中的位置、列 (column)对应碱基,或者相反对应的矩阵,矩阵中的每一个组成元件是特定位置上的特定 碱基的权重(weight)。通过合计序列中各碱基的权重,可确定该序列对照位置权重矩阵的 分数(score),例如,当序列为ACG时,分数为矩阵第1栏的A权重、第2栏的C权重、及第3 栏的G权重的总和,假设这些栏对应该碱基的位置。通过反复对一序列确定对照矩阵的分 数,可对一个长度大于该矩阵中位置数目的序列运作位置权重矩阵,其起始位置在每一运 作中增加一个位置。在该方法中,可确认产生对应该矩阵的最大或最小分数的序列中的位 置。“储存装置”表示可由计算机获取的数字信息的储存库,包括RAM、ROM、硬盘、非挥13发性固态记忆体、光碟、磁碟及其等同物。“信息结构”是一个物体或含有信息的储存装置中的变量(variable)。信息结构 可含有标量数据(scalar data)(例如个别特征、数量、或字符串)、标量数据的集合(例如 标量的矩阵或阵列)、或递归的集合(例如包含次表(sub-list)、矩阵、阵列和/或标量作 为元件的表列(list),该表列可为多维度的(multidimentional),其中所述次表可含有次 表、矩阵、阵列和/或数值作为元件)。核酸样本本发明方法包括确认核酸样本序列和/或确认核酸样本中修饰碱基的位置。”核 酸样本”指本发明方法中待确认的序列和/或修饰碱基位置的核酸。核酸样本可获自例如DNA(包括基因组DNA、cDNA、mtDNA、叶绿体DNA、及染色体 外或细胞外DNA,但不限于此)或RNA(包括mRNA、初级转录本RNA、tRNA、rRNA、miRNA, siRNA、及snoRNA,但不限于此),但不限于此。核酸样本可来自个体、患者、样本、细胞培 养物、生物膜(biofilm)、器官、组织、细胞、孢子、动物、植物、真菌、原生生物、细菌、古细菌 (archaeron)、病毒或病毒粒体(virion)。在一些实施方案中,核酸样本获自环境样本,例如 来自土壤或水,核酸样本可获自环境样本,无须特别了解核酸是否为细胞、细胞外或病毒来 源。而且,核酸可获自化学或酶催化反应,包括合成、重组、或自然发生的核酸经酶修饰的反 应,例如经甲基转移酶(methyltransferase)催化。在一些实施方案中,核酸样本是上述来源经过处理的样本。例如分离的核酸 可经剪切片段化,例如经过超声波振动或通过小孔径的移液(pipetting),或通过酶消 化,例如内切酶(endonuclease)而片段化,该内切酶可为限制性内切酶(restriction endonuclease)。在一些实施方案中,核酸样本至少具有一个突出(overhang)。分离 的核酸可先被克隆(clone)并在宿主细胞和/或载体(vector),例如细菌或酵母菌的 人造染色体、微染色体(minichromosome)、质粒(plasmid)、粘粒(cosmid)、染色体外元 件(extrachromosomal element)、或染色体整合构建体(chromosomalIy integrated construct)中增殖。提供环状核酸分子在一些实施方案中,本发明方法包括提供环状核酸分子,该环状核酸分子包含插 入样本单元,该插入样本单元含有核酸插入物和核酸样本,其中该插入物具有已知序列。该 环状核酸分子可为单链或双链。在一些实施方案中,该环状核酸分子是由其来源物分离得到的环状构造分子,如 果该环状核酸分子的序列部分是已知的,则其可作为核酸插入物(例如该环状分子所含的 基因序列中保守的基序(conserved motif)可能是已知的,或者根据该分子在高度严谨条 件下与另一已知序列核酸杂交的能力,可知含有某一序列)。在一些实施方案中,在知道该 核酸插入物序列来自严谨杂交性质的情形下,对该核酸插入物序列的认识并不精确。在一 些实施方案中,在该环状核酸分子具有已知骨架序列(backbone sequence)或者经工程改 造(engineered)含有已知序列的情形下,则对该核酸插入物序列具有精确的认识。在一些实施方案中,该环状核酸分子来自体外(in vitro)反应或将该核酸样本 与核酸插入物一起并入该环状分子的反应。体外反应,在一些实施方案中,可包括连接酶 (Iigase)催化的接合(ligation)和/或其它,例如可由多种酶催化的链连接反应(strand14joining reaction),包括重组酶(recombinases)禾口拓扑异构酶(topoisomerases)。DNA连 接酶或RNA连接酶,在接头(adapter)分子或联结子(linker)存在或不存在下,可用于使 一线状模板的两端酶性连接,形成环状。例如,T4RNA连接酶偶联单链DNA或RNA,如Tessier et al.,Anal Biochem,158 171-78 (1986)所述。CIRCLIGASE (TM) (Epicentre, Madison, Wis.)也可用于催化单链核酸接合。或者,双链连接酶,例如E. coli或T4 DNA连接酶,可用 于环化反应。在一些实施方案中,提供该环状核酸分子包括以含有互补区域的引物(primer) (引物可为具有已知序列的5’垂悬(flap)的任意引物,该已知序列可作为核酸插入 物)放大一核酸模板(template),环化该经扩增的核酸,例如通过连接酶或重组酶催化。 该经扩增的核酸,在一些实施方案中,可在环化之前对其末端进行处理,例如限制切割 (restriction)或磷酸化。在一些实施方案中,该环状核酸分子通过进行化学环化作用提供。化学 方法采用已知的偶联剂(coupling agent),例如BrCN与咪唑及二价金属、N-氰基 咪唑(N-cyanoimidazole)与ZnCl2、l_ (3- 二甲基氨基丙基)_3_乙基碳化二亚胺 (ethylcarbodiimide)盐酸盐、及其它碳化二亚胺(carbodiimides)与羰基二咪唑 (carbonyl diimidazole)。线状模板的末端也可以通过缩合(condense) 5,-磷酸与3,-羟 基或5’ -羟基与3’ -磷酸而连接。在一些实施方案中,环状核酸分子为环状配对互锁分子(circular pair-locked molecule ;cPLM)。此类型的分子在下面详述。提供核酸样本的正向及反向重复序列;环状配对互锁分子在一些实施方案中,本发明方法包括提供核酸样本的正向及反向重复序列,及将 该正向链及反向链锁在一起形成cPLM。cPLM的一般结构如图3所示。cPLM是单链环状核酸 分子,包括核酸样本的正向及反向重复序列,该重复序列由核酸插入物包围,如图3A所示。 该核酸插入物可为相同或相异。在一些实施方案中,该插入物具有至少50nt或至少IOOnt 的长度。在一些实施方案中,该插入物的长度为50或IOOnt至10,000或50,OOOnt0线状双链核酸样本的双链可彼此锁在一起,形成cPLM,例如通过接合(Iigate)在 分子端形成发卡结构(hairpin)的核酸插入物。在一些实施方案中,形成发卡结构的核酸 插入物具有至少 20°C、25°C、30°C、35°C、40°C、45°C、50°C、55°C、60°C、65°C或 70°C 的解链 温度。该接合(ligation)可为平端(blunt-end)或粘性末端(sticky-end)连接。发卡结 构结构具有碱基对的干区(stem region)及未配对的环区(loop region)。在一些实施方案 中,插入的核酸包括至少20、22、25、30、或35个核苷酸大小的环区。在一些实施方案中,该 环区适合引物连接。在一些实施方案中,该环区以至少451、501、551、601、651或701 的解链温度与引物连接。在一些实施方案中,该核酸样本包含不同的粘性末端(sticky end),例如可由限 制酶分解不同的限制位(restriction sites)而产生,这些不同的粘性末端有利于不同的 核酸插入物接合(ligation)。在一些实施方案中,以此方式待转换的双链核酸可通过沿着 含有所希望的样本序列的模板延伸包含已知序列的5’垂悬(flap)的任意引物而获得。双链核酸的双链也可经由酶处理使双链端转换成发卡结构,彼此双链锁在一 起形成cPLM,例如经由重组酶(recombinanase)与双链分子的一端形成磷酸酪氨酸(phosphotyrosin)连结,之后另一链对该磷酸酪氨酸的连结作亲核性攻击(nucleophilic attack),形成发卡结构。λ整合酶(integrase)及Flp重组酶等家族成员(如 Chen et al. , Cell 69,647-658(1992) ;Roth et al. , Proc Natl Acad Sci USA 90, 10788-10792(1993))是该重组酶的实例。在一些实施方案中,核酸样本包括酶的识别序列, 该酶使双链端转换成发卡结构。在一些实施方案中,使双链端转换成发卡结构的酶的识别 序列附着于该核酸样本,例如通过接合(ligation)。在一些实施方案中,样本核酸开始以单链形式获得,在形成cPLM前,转换成双链 形式。此可通过例如使发卡结构(hairpin)与突出(overhang)接合至该样本核酸的3’端, 然后由该接合的发卡结构自3’端延伸,形成互补链而达成。之后可将第二发卡结构连接至 该分子,形成cPLM。核酸插入物本发明的方法包括提供和/或使用环状核酸分子,包括cPLM,该环状核酸分子包 括至少一个核酸插入物。在一些实施方案中,该至少一个核酸插入物具有部分的、不精确 的、或完全的已知序列,如上所述。在一些实施方案中,该至少一个核酸插入物的序列是 完全已知的。在一些实施方案中,该至少一个核酸插入物包括寡核苷酸的合适结合位点 (binding site),该寡核苷酸包括测序引物。在一些实施方案中,该至少一个插入核酸形成 发卡结构(hairpin)。在一些实施方案中,该至少一个核酸插入物具有10-300个、15-250个、30-200 个、或30-100个核苷酸残基的长度。在一些实施方案中,该至少一个核酸插入物具有 450C -70°C或 50°C -65°C 的解链温度。在一些实施方案中,该至少一个核酸插入物包括一启动子(promoter),例如T7 RNA 聚合酶启动子(如 Guo et al.,J Biol Chem 280,14956-14961 (2005))。启动子由 RNA 聚合酶辨识,是RNA合成开始的位置。其它的启动子在该技术领域中亦是已知的。插入样本单元本发明中使用的环状核酸分子包括至少一个核酸样本及至少一个核酸插入物,组 成至少一个插入样本单元。插入样本单元为核酸片段,其中核酸插入物位于紧邻核酸样本 的上游或下游。在一些实施方案中,该环状核酸分子是cPLM,包含两个插入样本单元,在此二插入 样本单元中的核酸样本彼此互为相反方向(orientation),S卩,一个是核酸样本的正向重复 序列,另一个是反向重复序列。需注意cPLM可考虑为包含两个插入样本单元,其中该插入 物位于该样本的上游或下游,亦即,依照如图3B所示结构的cPLM,依序包含组成元件11 (正 向重复序列)、14 (插入物)、12 (反向重复序列)、及13 (插入物),13接回11,使该环封闭。 不论该插入样本单元是否是11与14及12与13,或13与11及14与12,该分子包含两个 插入样本单元。在实施例中,当该插入物的方向(orientation)和/或其相对于该样本的 定位(positioning)是功能上显著的时,例如该插入物包括一启动子或引物结合位点,其 最有效于组合该插入样本单元,从而组合该插入物与样本朝向引物结合位点或启动子的方 向,亦即,该样本可由引物结合位点或启动子开始由聚合酶复制。获取序列信息测序方法16[0071]本发明方法包括获取序列信息。在一些实施方案中,包括至少两个插入样本单元 的核酸分子在获取序列信息的步骤中产生。在一些实施方案中,包含至少两个插入样本单 元的核酸分子可通过从提供的环状核酸分子合成而产生。在一些实施方案中,包含至少两 个插入样本单元的核酸分子可通过改变提供的环状核酸分子而产生,例如通过将该环状核 酸分子转换为线状核酸分子,在一些实施方案中,该核酸分子可为单链。在一些实施方案 中,核酸分子中的至少一个磷酸二酯键(phosphodiester)在获取序列信息的步骤中形成 或断裂,该核酸分子可为提供的环状核酸分子或其模板合成产物。在一些实施方案中,序列信息通过合成方法测序而获得。在一些实施方案中,序 列信息使用单一分子测序方法而获得。在一些实施方案中,单一分子测序方法选自焦磷 酸测序(pyrosequencing)、可逆终止密码子测序(reversible terminator sequencing)、 连接测序(ligation sequencing)、纳米孔测序(nanopore sequencing)、及第三代测序 (third-generation sequencing)。在一些实施方案中,序列信息使用大量(bulk)测序方法而获得,例如Sanger测序 或 Maxam-Gilbert 测序。单一分子测序方法与大量测序方法不同在于,单一核酸分子是否为测序过程的一 部分而分离。核酸分子可为单链或双链,就目的而言,两个粘合的核酸链被认为是单一分 子。单一分子的分离可发生在微孔(microwell)中,经由使用纳米孔(nanopore),以可光学 切割(optically resolvable)形式直接或间接附着于基底物质,例如显微玻片,或者以任 何其它容许由个别分子获得序列信息的方式。在间接附着中,单一分子通过连接于该单一 分子(例如蛋白质或寡核苷酸)的连接结构(linking structure)附着于基底物质。特别 是单一分子被分离、之后扩增,序列信息直接由该扩增产物中获得的方法仍被认为是单一 分子方法,因为单一分子被分离,并作为该序列信息的基本来源。(相反地,在大量测序方法 中,使用含有多分子的核酸样本,获得含有源自多个分子信号的信息)。在一些实施方案中 进行单一分子测序,其中冗余序列(redundant sequence)获得自同一分子。冗余序列可通 过在一个分子中对至少两个直接或倒转(inverted)的重复序列测序而获得,或者通过对 该分子的相同部份进行一次以上的测序而获得。冗余序列可为完全冗余或有某些变异的部 分的冗余,例如因为特定类型碱基的碱基配对特异性(base pairing specificity)改变所 造成的差异,或者因为测序过程中可能发生的错误所造成的差异。在一些实施方案中,碱基 配对特异性的改变可发生于测序之前。在一些实施方案中,相同的分子被测序数次,可选地 经中间处理(intervening treatment),该中间处理选择性地改变重复测序之间发生的特 定类型碱基的碱基配对特异性。Sanger测序涉及使用标记的双脱氧基链终止序列(dideoxy chain terminator),是该技术领域所周知的(如 Sanger et al. , Proc Natl Acad Sci USA 74, 5463-5467(1997))。Maxam-Gilbert测序涉及在核酸样本的部分进行多重部分化学降解 反应,之后检测及分析片段,推测该序列,亦是该技术领域所周知的(如Maxam et al., Proc Natl Acad Sci USA 74,560-564(1977))。另一大量测序方法是通过杂交测序,其中 根据该样本对复数个序列的杂交性质,推导该样本序列,例如在微阵列或生物芯片中(如 Drmanac,et al. , Nat Biotechnol 16,54-58(1998))。单一分子测序方法一般性的讨论于,例如Kato,Int J Clin Exp Med 2,17193-202 (2009),并作为本案参考。焦磷酸测序(pyrosequencing)、可逆终止密码子测序(reversible terminator sequencing)及连接测序(ligation sequencing)被认为是第二代测序方法。一般而言,这 些方法使用产生自单一分子的扩增产物,与产生自其它分子的扩增产物在空间上分离。该 空间上的分离可通过使用乳化液、皮升(picoliter)孔、或固定于玻片上进行。序列信息通 过核苷酸上的荧光获得,在获取信息后,去除新并入的核苷酸的荧光,并对下一个核苷酸重 复此过程。在焦磷酸测序(pyrosequencing)中,由聚合反应中释放的焦磷酸离子在ATP硫酸 化酶(sulfurylase)催化下与腺嘌呤5,磷酸硫酸(adenosine 5,phosphosulfate)反应, 产生ATP,ATP之后驱动荧光素(Iuciferin)在荧光素酶(Iuciferase)催化下转换为氧化 荧光素(oxyluciferin)及光。由于荧光为瞬间的,在此方法中不需要另一个分离步骤去除 荧光。此时加入一种脱氧核苷酸三磷酸(dNTP),根据在反应位点上的dNTP产生的明显信 号,辨别序列信息。可市购的Roche GS FLX仪器使用此方法获得序列。此技术及其应用如 下述详细讨论,例如 Ronaghi et al.,Anal Biochem 242,84—89 (1996)及 Marguilies et al. , Nature 437,376-380 (2005)(更正于 Nature 441,120(2006))。可逆终止密码子测序(reversible terminator sequencing)中,在单一碱基延 伸反应里并入经荧光染料标记的核苷酸类似物(analog),因为阻断基(blocking group) 的存在,该核苷酸类似物是可逆的链终止密码子。根据荧光团(fluorophore)确认碱基, 换句话说,每一个碱基与不同的荧光团配对。在获取荧光/序列信息后,化学性移除该荧 光团及阻断基,重复此周期,以获取序列信息的下一个碱基。发光GA仪器(Illumina GA instrument)即以此方法操作。该技术及其应用详细讨论于如Ruparel et al. ,Proc Natl Acad Sci USA 102,5932-5937(2005)及 Harris et al. , Science 320,106-109(2008)。连接测序(ligation sequencing)中使用连接酶使具有突出的部份双链的寡核苷 酸与待测序的核酸连接,该核酸具有突出,为了使接合(ligation)发生,该二个突出必须 互补。部分双链寡核苷酸的突出的碱基可根据连接至该部分双链寡核苷酸和/或连接至 与该部分双链寡核苷酸的其它部分杂交的次级核苷酸之荧光团而确认。获取荧光信息后, 该接合复合体(ligated complex)在结合位点的上游被切割,例如使用IIs型限制酶,如 Bbvl,其在距离其识别位点固定距离的位置(该识别位点包含于该部分双链寡核苷酸中) 切割。该切割反应在紧邻先前突出的上游暴露出新的突出,并重复此过程。此技术及其应 用详细讨论于如 Brenner et al.,Nat Biotechnol 18,630-634 (2000)。在一些实施方案 中,本发明方法采用连接测序,获得环状核酸分子的滚环扩增产物,及使用该滚环扩增产物 作为模板,进行连接测序。纳米孔测序(nanopore sequencing)中,单链核酸分子经孔穿过,例如使用电泳驱 动力(electrophoretic driving force),分析该单链核酸分子穿过孔时所获得的信息,推 测序列。该信息可为离子电流信息,其中每一个碱基改变该电流,例如经由部分阻断通过孔 的电流,使电流为不同、可区别的程度。第三代测序中,使用表面涂覆具有多小洞( 50nm)的铝涂层之玻片,作为零模式 波导(如Levene et al. ,Science 299,682-686 (2003))。该铝表面经由聚磷酸化学,例如 聚乙烯磷酸化学使DNA聚合酶附着而受到保护(如Karlach et al. ,Proc Natl Acad Sci18USA 105,1176-1181(2008))。这导致DNA聚合酶分子优先附着于该铝涂层洞中暴露的二氧 化硅(silica)。该设置使逐渐消失的波现象(wave phenomena)被用于减少荧光背景,允许 使用较高浓度的荧光标记的dNTP。荧光团(fluorophore)附着于dNTP的末端磷酸,从而在 并入dNTP时释放荧光,但是荧光团不附着于新并入的核苷酸,表示该复合体可立即进行另 一周期的并入。通过该方法可检测该铝涂层洞中个别引物模板复合体的dNTP的并入(如 Eid et al, Science 323,133-138(2009)) 测序模板;获得的测序信息量在一些实施方案中,序列信息直接获自环状核酸分子,亦即使用该环状核酸分子 作为模板。作为模板的环状核酸分子可为环状配对互锁分子。在一些实施方案中,序列信 息获得自产物核酸分子,其自身使用环状核酸分子作为模板而合成,即获得序列信息所使 用的模板可为由环状核酸分子模板合成的产物核酸分子。在一些实施方案中,序列信息获 自环状核酸分子模板及合成自环状核酸分子模板的产物核酸分子。在一些实施方案中进行滚环扩增(rolling circle amplication),包含使用环状 核酸分子为模板,合成含有至少两个插入样本单元的产物核酸分子。在一些实施方案中,滚 环扩增包括合成含有至少3、4、5、10、15、20、25、50或100个插入样本单元的产物核酸分子。 使用滚环扩增以制造大量模板复制物在该技术领域中是周知的(如Blanco et al. ,J Biol Chem 264,8935-8940(1989)及Ban6r et al. ,Nucleic Acids Res 26,5073-5078 (1998))。 滚环扩增可为测序的一部分,其中该环状核酸分子为测序的模板,或合成作为测序模板的 产物核酸分子。不考虑模板,根据本发明方法获得的序列信息包括该核酸样本序列的至少两个重 复序列,该至少两个重复序列在一些实施方案中包括该核酸样本序列中至少一个正向重复 序列及该核酸样本序列中至少一个反向重复序列。在一些实施方案中,序列信息包括该核 酸样本序列的至少3、4、5、10、15、20、25、50或100个重复序列。在一些实施方案中,序列信 息包括该核酸样本序列的至少2、3、4、5、10、15、20、25、50或100个正向重复序列。在一些 实施方案中,序列信息包括该核酸样本序列的至少2、3、4、5、10、15、20、25、50或100个反向 重复序列。在一些实施方案中,序列信息包括该核酸样本序列的至少2、3、4、5、10、15、20、 25,50或100个正向及反向重复序列。计算分数在一些实施方案中,本发明方法包括通过比较该插入物的序列与该插入物中的已 知序列,计算该序列信息中至少两个插入物序列的分数。在一些实施方案中,当该插入物序 列只有部分已知或不精确地已知,该核酸插入物的已知序列可包括不确定或未知的位置, 例如通过使用多义密码子(ambiguity code)或位置权重矩阵(position weight matrix)。比较该插入物的序列与该插入物中的已知序列包括确认该序列信息中至少两个 插入物的序列。确认该序列在一些实施方案中可以通过目视观察进行,即通过人用视觉扫 描序列信息并发现其中的插入核酸序列,或通过计算机帮助比对的方法(如国际专利申请 案公开号W02009/017678)。在一些实施方案中,序列的确认可通过识别该序列的演算法扫 描序列信息而进行,例如对序列信息中的多个位置进行重复或探索计算分数,确认对应最 接近该核酸插入物中已知序列的局部极值(local extrema)。在一些实施方案中,对至少两 个核酸插入物序列的鉴别可与计算分数同时进行,两种方法可使用相同分数。[0090]在一些实施方案中,计算分数包括使用适当比对演算法进行比对,此方法在 本领域中多数为已知且容易取得,例如BLAST、MEGABLAST、Smith-Waterman比对及 Needlemen-Wunsch 比对(如 Altschul et al.,J Mol Biol 215,403-410 (1990))。适当的 比对演算法包括容许间隔(gap)及不容许间隔的演算法。或者,在一些实施方案中,计算分 数包括使用演算法分析序列,例如对序列运行位置权重矩阵(position weight matrix)并 计算对应该序列的矩阵元件的总和。这样,可计算分数,如通过将该矩阵以逐步的方式用于 序列读取来计算局部最大值的。在一些实施方案中,该分数与该至少两个核酸插入序列对已知序列的接近程度 呈正相关(例如精确匹配(match)的最大可能分数)。该正相关分数包括同一性百分比 (percent identity)、位分数(bit scores)、及符合碱基计数(matching base count),但 不限于此。在一些实施方案中,该分数与该至少两个核酸插入序列对已知序列的接近程度 呈负相关(例如精确匹配的最小可能分数)。该负相关分数包括e值(e-value)、误配数 (number of mismatches)、误配数及间隔(gap)、误配百分比(percent mismatched)、及误 配/间隔百分比(percent mismatched/gapped),但不限于此。在一些实施方案中,以比率(rate)为基础计算分数。比率基础上计算的分数的可 能范围不会作为待比较的序列长度的函数而改变。比率基础上计算的分数例如同一性百分 比(percent identity)及误配/ 间隔百分比(percent mismatched/gapped),但不限于此。在一些实施方案中,以计数(count)为基础计算分数。计数基础上计算的分数的 可能范围会作为待比较的序列长度的函数而改变。计数基础上计算的分数例如位分数(bit scores)、误配数(number of mismatches)、误配及间隔数(number of mismatches and gaps)及匹配碱基计数(matching base count),但不限于此。接受或拒绝核酸样本序列的重复序列;接受序列组在一些实施方案中,本发明方法包括接受或拒绝该序列信息中核酸样本序列的重 复序列,根据该核酸样本序列的重复序列上游及下游紧邻的插入物之一或两个序列分数来 决定。因此在不同的实施例中,紧邻该核酸插入物的上游及下游两者的分数、其中之一的分 数、或特定的其中之一的分数,用于决定是否接受或拒绝该序列信息中的核酸样本序列。在一些实施方案中,当分数与该至少两个核酸插入物序列对已知序列的接近程度 为正相关时,若分数大于、大于或等于阈值(threshold value),则接受序列。适当阈值的选 择与多重因素有关,包括使用分数的类型、测序方法的错误率、对时间及冗余(redundancy) 的考量。接受及拒绝该核酸样本序列的重复序列可由多种方式进行,从而使得使用至少一 个接受的重复序列,不使用任何一个拒绝的重复序列,来确定该核酸样本序列。接受及拒绝 重复序列可以与或可以不与汇编接受序列组以协调的方式进行。例如当接受的重复序列接 受进入新的信息结构时,该接受的重复序列的序列可被复制,该信息结构变成接受序列组。 或者,当被拒绝时,拒绝的重复序列可被删除或盖写(例如以”0”或”X”字母标示无信息或 排除的信息),在此情形时,一旦拒绝的序列被删除或盖写,原始信息结构就被修改,从而变 成接受序列组。在这些实例中,接受及拒绝重复序列与汇编接受序列组以协同的方式进行。在一些实施方案中,核酸样本序列的重复序列可因额外的因素被拒绝,例如长度20偏离该核酸样本序列中其它重复序列的长度(如图7B)。例如,如果该核酸样本序列的 重复序列的长度,偏离其它核酸样本序列的平均值或中间值长度的阈值范围(threshold extent),或偏离接受序列组的预定版本的平均值或中间值长度的阈值范围(threshold ext...

【专利技术属性】
技术研发人员:潘诏智
申请(专利权)人:财团法人工业技术研究院
类型:发明
国别省市:71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1