用于产生和使用最佳核苷酸流顺序的系统和方法技术方案

技术编号:11049902 阅读:59 留言:0更新日期:2015-02-18 14:59
描述了用于产生尽可能降低序列数据中相位同步误差的累积的流顺序的方法的实施方案,其包括以下步骤: (a)产生包含k碱基长度的核苷酸种类的多个序列排序,其中所述序列排序定义将核苷酸种类引入边合成边测序反应环境的序列;(b)使用所述序列排序模拟从一个或更多个参考基因组获取序列数据,其中所述序列数据包含相位同步误差的累积;和(c)使用读取长度参数和延伸率参数选择所述序列排序中的一个或更多个。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及分子生物学领域。更具体而言,本专利技术涉及用于产生和采用经优化以尽可能降低通常被称为“边合成边测序(Sequencing-by-Synthesis)”(SBS)技术的技术产生的核酸序列数据中的相位同步误差的引入的流顺序(flow order)的实施方案的系统和方法。专利技术背景边合成边测序(SBS)一般是指用于确定核酸样品中一种或多种核苷酸的身份或序列组成的方法,其中所述方法包括逐步合成与要被确定其核苷酸序列组成的模板核酸分子互补的多核苷酸分子的单链。例如,SBS技术通常通过在对应序列位置向与模板分子的核酸种类互补的新生多核苷酸分子添加单个核酸(也称为核甘酸)种类而工作。一般利用本领域中已知的多种方法来检测核酸种类向新生分子的添加,这些方法包括,但不限于,所谓的焦磷酸测序,所述焦磷酸测序可以包括酶促或电子(即利用ISFET或其它相关技术的pH检测)检测策略或荧光检测方法,在一些实施方案中,其可以采用可逆的终止剂。典型地,该过程迭代,直到合成了完全(即,所有序列位置被表示)或期望的与模板互补的序列长度。在美国专利号6,274,320, 7,211,390; 7,244,559; 7,264,929;和7,335,762中描述了SBS技术的一些实例,所述专利的每一个在此出于所有目的以其整体通过引用并入本文。在SBS的一些实施方案中,设计寡核苷酸引物以对样品模板分子的预定互补位置退火。在核酸聚合酶存在的情况下,为引物/模板复合物提供核甘酸种类。如果核甘酸种类与对应于样品模板分子上直接与寡核苷酸引物的3’末端相邻的序列位置的核酸种类互补,那么聚合酶将利用所述核甘酸种类延伸所述引物。或者,在一些实施方案中,立刻为引物/模板复合物提供多个目标核甘酸种类(典型地为A、G、C和T),并且在样品模板分子上直接与寡核苷酸引物的3’末端相邻的对应序列位置处互补的核甘酸种类被掺入。如上所述,可以通过本领域中已知的多种方法检测核甘酸种类的掺入,例如,通过以酶促或电子方式检测焦磷酸盐(PPi)或氢(H+)的释放(美国专利号6,210,891; 6,258,568; 和6,828,100中描述的实例,所述专利的每一个在此出于所有目的以其整体通过引用并入本文),或通过结合到核苷酸的可检测标记。在典型的实施方案中,例如,通过洗涤去除未掺入的核苷酸。在使用可检测标记的实施方案中,通常必须在随后合成循环之前将它们灭活(例如,通过化学裂解或光漂白)。如上所述,然后可以利用另一核甘酸种类或多个目标核甘酸种类来查询模板/聚合酶复合物中的下一个序列位置。核甘酸添加、引物延伸、信号采集和洗涤的重复循环导致模板链的核苷酸序列的确定。在SBS的典型实施方案中,在任何一个测序反应中同时分析大量或“克隆”群体的基本上相同的模板分子(例如103、104、105、106或107个分子),以便获得对于可靠检测而言足够强的信号。对于低信噪比需要在给定反应的群体中与基本上所有模板分子相关联的新生分子的所谓的“均匀延伸”。如本文中使用,术语“均匀延伸”一般是指延伸反应的关系或相位,其中上述基本上相同的模板分子的群体的每个成员均匀地进行反应中的相同步骤。例如,当它们在针对每个相关联的模板分子的相同序列位置进行相同的反应步骤时,可以将与模板分子的群体相关联的每个延伸反应描述为彼此同相(有时也称为相位同步或相位同步性)。然而,相关领域的普通技术人员将理解,每个群体中的一小部分模板分子与该群体中的其余模板分子失去或脱离相位同步性(即,与该部分模板分子相关联的反应在该群体上进行的测序反应中超前于或落后于其它模板分子)(在Ronaghi,M.的“Pyrosequencing sheds light on DNA sequencing”,Genome Res. 11,3-11(2001)中描述了一些实例,在此出于所有目的以其整体通过引用并入本文)。例如,将一个或更多个核甘酸种类适当地掺入一个或更多个新生分子中以将序列延伸了一个位置的反应的失败导致每个后续反应处于在群体的其余部分的序列位置之后并且与其异相的序列位置。本文中将该效应称为“不完全延伸”(IE)。或者,在本文中将通过在位于群体的其余部分的序列位置之前并且与其异相的序列位置中掺入一个或更多个核甘酸种类而不适当地延伸新生分子称为“推进(carry forward)”(CF)。本文中将CF和IE的组合效应称为CAFIE。普通技术人员将理解,IE和CF两者误差的潜在可能在延伸反应期间在每个序列位置发生,并由此可能在所得到的序列数据中具有明显的累积效应。例如,在朝向“序列读取”结束时,该效应可能变得尤其引人注目。此外,IE和CF效应可以为利用SBS方法可靠测序的模板分子的长度(有时称为“读取长度”)强加上限,因为序列数据的质量随着读取长度增加而降低。SBS的一些实施方案已经成功应用数值建模和模拟方法来将来自SBS测序策略的数据排序,以生物信息学地校正序列数据中的CAFIE误差,以便延伸来自测序运行的可用读取长度。然而,此类方法对于来自SBS测序策略的序列读取中发现的累积CAFIE误差是补偿性的,并且没有提供用于在测序运行期间CAFIE误差的累积的机制。本文所述的SBS的实施方案根据预先确定的顺序(也称为“流顺序”,“流模式”,或“核苷酸分配顺序”)将每个核苷酸种类个别系列引入测序反应环境。例如,SBS的实施方案可以采用每个循环4个核苷酸种类(诸如核苷酸种类的TACG顺序)的预定顺序的重复循环。在一些实施方案中,根据应用,流顺序可以重复200到400次。然而,在实践中,流顺序不需要是4个核苷酸种类循环重复,诸如如上所述的TACG。事实上,一些SBS应用已经利用订制的流顺序,其针对序列先验已知的扩增子的核苷酸序列,以尽可能增加由最小数量的核苷酸种类流延伸的掺入的碱基数(即,通过设计具有非常高的延伸率)。在所述扩增子类型流顺序实施方案中,流顺序可以被解释为由扩增子序列的序列组成定义的单一流顺序(即非环状)。因此,期望延伸数值CAFIE校正和定制流顺序设计的概念并实施测序运行期间降低CAFIE类型误差的累积或者可以校正一些CAFIE误差的一个或更多个流顺序。换言之,与将CAFIE校正方法应用于测序数据相反,算法和建模可用于预测测序运行期间降低CAFIE误差的累积或者校正一些CAFIE误差的更优化的流顺序。本文中引用了多个参考文献,其完整公开内容出于所有目的以其整体通过引用并入本文。此外,不论上文如何表征,这些参考文献中的任一个都不被视为本文中要求保护的主题的专利技术的现有技术。专利技术概述本专利技术的实施方案涉及核酸序列的确定。更具体而言,本专利技术的实施方案涉及用于校正通过SBS对核酸测序期间获得的数据中的相位同步误差的递归方法和系统。描述了用于产生尽可能降低序列数据中相位同步误差的累积的流顺序的方法的实施方案,其包括以下步骤: (a) 产生包含k碱基长度的核苷酸种类的多个序列排序(sequential ordering),其中所述序列排序定义将核苷酸种类引入边合成边测序反应环境的序列;(b)使用所述序列本文档来自技高网...

【技术保护点】
用于产生尽可能降低序列数据中相位同步误差的累积的流顺序的方法,其包括以下步骤:(a) 产生包含k碱基长度的核苷酸种类的多个序列排序,其中所述序列排序定义将核苷酸种类引入边合成边测序反应环境的序列;(b) 使用所述序列排序模拟从一个或更多个参考基因组获取序列数据,其中所述序列数据包含相位同步误差的累积;和(c) 使用读取长度参数和延伸率参数选择所述序列排序中的一个或更多个。

【技术特征摘要】
【国外来华专利技术】2012.05.18 US 61/6487831.用于产生尽可能降低序列数据中相位同步误差的累积的流顺序的方法,其包括以下步骤:
(a) 产生包含k碱基长度的核苷酸种类的多个序列排序,其中所述序列排序定义将核苷酸种类引入边合成边测序反应环境的序列;
(b) 使用所述序列排序模拟从一个或更多个参考基因组获取序列数据,其中所述序列数据包含相位同步误差的累积;和
(c) 使用读取长度参数和延伸率参数选择所述序列排序中的一个或更多个。
2.权利要求1的方法,其中:
序列数据的模拟获取包括使用推进参数和不完全延伸参数,其模拟相位同步误差的累积。
3.权利要求1的方法,其中:
k碱基长度选自16、24、32、和40个碱基长度。
4.权利要求1的方法,其中:
k碱基长度包含范围为32-40个碱基的长度。
5.权利要求1的方法,其中:
读取长度参数包含含有小于3%的累积相位同步误差的读取长度的测量值。
6.权利要求1的方法,其中:
延伸率参数包含平均数目的与单核苷酸流可以延伸的模板分子互补的序列位置。
7.权利要求1的方法,其中:
选择的序列排序包含高读取长度参数和低延伸率参数。
8.用于使用尽可能降低序列数据中相位同步误差的累积的流顺序测序核酸模板的方法,其包括以下步骤:
(a)  将包含k碱基长度的核苷酸种类的序列排序引入边合成边测序反应环境,其中所述核苷酸种类的序列排序包含高读取长度特征和低延伸率特征;
(b) 从边合成边测序反应环境获取响应于基本上相同的核酸模板分子的一个或更多个群体的延伸反应中核苷酸种类的掺入的信号,其中所述信号包含落在延伸相后面的一个或更多个群体的核酸模板分子的子集的误差测量值;
(c) 循环重复引入核苷酸种类...

【专利技术属性】
技术研发人员:陈怡儒CTA黄
申请(专利权)人:霍夫曼拉罗奇有限公司
类型:发明
国别省市:瑞士;CH

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1