用于分子探针的数据驱动设计、合成和应用的系统和方法技术方案

技术编号:19873467 阅读:39 留言:0更新日期:2018-12-22 16:11
本发明专利技术公开了用于设计和合成从样品的靶基因组捕获代表性基因组变体样本的探针的方法和系统。该方法包括提供多重序列比对(MSA),设计多个代表性子序列,以及可选地合成核酸探针。设计步骤可以包括在MSA中指定多个间隔,移动每个MSA子集的起始位置,在每个调整的子集内聚类对齐的子序列,以及确定每个简化的MSA子集的代表性序列。本发明专利技术公开内容还包括使用本发明专利技术探针设计从样品中分离靶基因组亚区的多个核酸变体的方法,以及所述探针组合物。

【技术实现步骤摘要】
【国外来华专利技术】用于分子探针的数据驱动设计、合成和应用的系统和方法相关申请的交叉引用本申请要求2016年3月1日提交的美国临时申请No.62/302,078的权益,其公开内容通过引用整体并入本文。
本专利技术提供了用于分子探针的合理设计、合成和应用的方法和系统。关于序列表的声明与本申请相关的序列表以文本格式而非纸件提供,并且通过引用结合到本说明书中。包含序列表的文本文件的名称是57930_Sequence_Final_2017-02-28.txt。文本文件大小为2KB,于2017年2月28日创建,并随同本说明书一并提交。
技术介绍
一种捕获已知DNA片段(stretches)的早期手段是Southernblotting。该技术的变体,包括捕获RNA的Northernblotting,已经用于包括微阵列和液相杂交在内的许多现代应用。尽管DNA捕获概念已经经过更新并应用于许多其他专利技术中,但自20世纪70年代早期以来,基于互补DNA序列的探针作为“诱饵”的使用并没有改变。该常规探针设计取决于单个模板,其可以是参考序列或多数决定规则共有序列(其通常根据靶基因组区域的可获得的序列数据通过计算得到)。这种设计方法自Southernblotting/Northernblotting出现以来基本保持不变,其依赖于探针-靶分子结合来指示靶核酸的存在。虽然该方法简单,但这种设计方法并不总是理想的,因为它可能会引入靶标序列捕获偏差。靶标序列捕获偏差发生在当探针优先与和探针更相似的核酸结合,而非与其他序列结合时。在目的是捕获高度可变核酸的代表性池的应用中,传统设计的探针是次优的。例如,流感基因组在感染期间快速突变,因此在感染患者体内表现为没有数千种也有数百种变体。当用于富集高度可变流感基因组时,传统设计的探针仅能捕获基因组的子集,因此获得非代表性的基因组抽样。为了获得偏差较少的抽样,人们可以不用常规设计的探针集合。然而,在如流感的情况下,遗传多样性非常高(例如,有成千上万的报告菌株),而由于每个探针应当仅针对单一菌株,因此需要大量基于参考探针来完全捕获已知的遗传多样性。这种探针设计的可扩展性差,效率低且不经济。在下一代测序(NGS)技术出现之前,不可能对高度可变的基因序列进行常规鉴定。基因序列可能在单个样本或多个生物相关样本中表现出很大的变异性,通常反映了深层的生物学。已经开发了几种技术来表征可变的基因序列。然而,没有一种在临床环境中得到成功应用。由于显着低的错误率,Sanger测序是表征基因序列的事实上的金标准。然而,该方法在很大程度上取决于聚合酶链式反应(PCR),它是一种指数扩增目标基因区域的化学反应。Sanger测序在稳定的基因区域上表现良好,在该区域,每个碱基都可以在没有信号模糊的情况下被确定。然而,当将其应用于快速变异(或高度可变)区域时,Sanger测序会有以下缺点:1.通常,Sanger测序确定丰度最大的碱基。对于高度可变基因序列,在碱基识别(basecalling)过程可能会遗漏丰度较低的碱基。2.该方法要求引物结合位点稳定且特异。因此,许多感兴趣的基因区域对于Sanger测序来说可能太易变化,而不能起作用。3.引物优先与引物本身显示出更高序列同源性的基因序列结合,从而会引起测序偏差。NGS技术实现无偏基因测序。全宏基因组测序是一种广泛使用的对临床或环境样品中细菌、病毒和真核来源的所有核酸进行测序的技术。采用NGS的全宏基因组测序研究揭示了先前未知的细菌和病毒的遗传多样性。这种隐藏的多样性可以提供有待被充分认识的有价值的信息(例如,关于丙型肝炎病毒的患者内遗传多样性的信息可以提供对病毒传播动态的深入了解)。虽然采用NGS的全宏基因组测序的功能强大,但其价格昂贵,且可能是低效的,特别是在仅对少数几个选择的遗传区域和/或生物体感兴趣的应用中。当靶标生物和/或遗传区域已经预先确定,靶向宏基因组测序已作为全宏基因组测序的替代方案被提出。靶向测序是描述仅对感兴趣的遗传区域进行测序,而不是对给定样品中的所有遗传物质进行盲测序的技术的通用术语。例如,细菌中rRNA基因的扩增子NGS已成为一种广泛使用的用于调查环境样品的物种组成的技术。靶向测序的目标是提高NGS数据中的信噪比(即,需要的对不需要的序列)。可以使用各种方法实现靶向定位。这些方法包括基因特异性引物导向,液(或固)相杂交,蛋白质-核酸结合和酶促消化。每种方法都有其优缺点和预期的应用。液相杂交(LPH)与本专利技术最相关。LPH基于核酸互补结合的原理进行。当涉及易处理的(tractable)核酸片段(segments)集合时(例如,在流感亚型和菌株的鉴定中),核酸(即DNA或RNA)分子的LPH是一种强有力的技术。该技术需要设计小的核酸(以下称为探针;请注意在PCR中,这种探针被称为引物)以结合并富集目标遗传区域。尽管基因组采样和测序
所具有的进步,仍然需要经济的、高效的方法来获得环境中可变基因组的综合采样。本专利技术针对该问题及相关需求提供解决方案。
技术实现思路
本专利技术这一部分以简化的形式对将要在具体实施方式中进一步描述的部分概念进行介绍。本
技术实现思路
并非旨在确定所要求保护的主题的关键特征,也不旨在用于帮助确定所要求保护的主题的范围。在一个方面,本专利技术提供了一种用于分离靶基因组结构域的多个核酸变体的探针的设计方法。该方法包括:(a)提供靶基因组结构域中观察到的变体的核酸序列的多重序列比对(MSA);和(b)设计多个代表性子序列,其中,设计步骤包括:(i)在MSA的长度内指定多个间隔,其中每个间隔由具有所观察到的变体的比对的核酸子序列的MSA子集组成,其中每个MSA子集具有不同的起始位置;(ii)将MSA内每个MSA子集的起始位置独立地在指定方向上移动指定核酸数的位置,以提供经调整的MSA子集,其具有观察到的变体的比对的经调整的核酸子序列;(iii)可选地,独立地评估每个经调整的MSA子集是否符合终止标准,如果经调整的MSA不符合终止标准,则重复步骤(ii);(iv)独立地在每个经调整的MSA子集内对比对的核酸子序列进行聚类,以提供对应于每个经调整的MSA子集的简化的(reduced)MSA子集;和(v)确定每个简化的MSA子集的代表性子序列。在一些实施方式中,该方法还包括合成对应于每个简化的MSA子集的至少一个核酸探针的步骤,其中每个核酸探针包含代表相应的提纯(distilled)的MSA子集的代表性子序列或其互补序列。在一实施方式中,根据给定的空间限制指定MSA长度内的多个间隔。在一实施方式中,指定的间隔在MSA的长度上均匀分布。在一实施方式中,在MSA长度内的多个间隔被指定在包含高于MSA内平均保守序列含量的区域中。在一实施方式中,多个代表性子序列中的至少两个是非重叠的。在一实施方式中,步骤(b)(i)中的多个间隔是随机指定的。在一实施方式中,步骤(b)(i)的指定包括从多个指定的间隔中提取MSA子集,以在每个指定的间隔内提供比对的核酸子序列。在一实施方式中,每个MSA子集的起始位置位于子集的5'端或3'端。在一实施方式中,每个MSA子集起始位置移位的核酸位置的指定数目不超过相应MSA子集的长度。在一实施方式中,每个MSA子集的起始位置向5'端方向移位。在一实施方式中,本文档来自技高网
...

【技术保护点】
以下权利要求书要求保护本专利技术的实施方式的排他的权利和特权。一种用于分离靶基因组结构域的多个核酸变体的探针的合成方法,包括:(a)提供所观察到的所述靶基因组结构域的变体的核酸序列的多重序列比对(MSA);(b)设计多个代表性子序列,包括:(i)在MSA的长度内指定多个间隔,其中每个间隔由具有所观察到的变体的比对的核酸子序列的MSA子集组成,其中每个MSA子集有不同的起始位置;(ii)将MSA内每个MSA子集的起始位置独立地在指定方向上移动指定核酸数的位置,以提供经调整的MSA子集,其具有所述观察到的变体的比对的经调整的核酸子序列;(iii)可选地,独立地评估每个经调整的MSA子集是否符合终止标准,如果经调整的MSA不符合终止标准,则重复步骤(ii);(iv)独立地在每个经调整的MSA子集内对比对的核酸子序列进行聚类,以提供对应于每个经调整的MSA子集的简化的MSA子集;和(v)确定每个简化的MSA子集的代表性子序列;以及(c)合成对应于每个简化的MSA子集的至少一个核酸探针,其中每个核酸探针包含代表相应的提纯的MSA子集的代表性子序列或其互补序列。

【技术特征摘要】
【国外来华专利技术】2016.03.01 US 62/302,0781.以下权利要求书要求保护本发明的实施方式的排他的权利和特权。一种用于分离靶基因组结构域的多个核酸变体的探针的合成方法,包括:(a)提供所观察到的所述靶基因组结构域的变体的核酸序列的多重序列比对(MSA);(b)设计多个代表性子序列,包括:(i)在MSA的长度内指定多个间隔,其中每个间隔由具有所观察到的变体的比对的核酸子序列的MSA子集组成,其中每个MSA子集有不同的起始位置;(ii)将MSA内每个MSA子集的起始位置独立地在指定方向上移动指定核酸数的位置,以提供经调整的MSA子集,其具有所述观察到的变体的比对的经调整的核酸子序列;(iii)可选地,独立地评估每个经调整的MSA子集是否符合终止标准,如果经调整的MSA不符合终止标准,则重复步骤(ii);(iv)独立地在每个经调整的MSA子集内对比对的核酸子序列进行聚类,以提供对应于每个经调整的MSA子集的简化的MSA子集;和(v)确定每个简化的MSA子集的代表性子序列;以及(c)合成对应于每个简化的MSA子集的至少一个核酸探针,其中每个核酸探针包含代表相应的提纯的MSA子集的代表性子序列或其互补序列。2.根据权利要求1所述的方法,其中,根据设定的空间限制,在MSA的长度内指定多个间隔。3.根据权利要求2所述的方法,其中,所述指定的间隔在所述MSA的长度上均匀分布。4.根据权利要求2所述的方法,其中,在MSA的长度内的所述多个间隔被指定在MSA内保守性高于平均水平的区域中。5.根据权利要求1所述的方法,其中,所述多个代表性子序列中的至少两个是非重叠的。6.根据权利要求1所述的方法,其中,步骤(b)(i)中的所述多个间隔是随机指定的。7.根据权利要求1所述的方法,其中,步骤(b)(i)中的指定包括从所述多个指定的间隔中提取MSA子集,以在每个指定的间隔内提供比对的核酸子序列。8.根据权利要求1所述的方法,其中,每个MSA子集的起始位置是位于子集的5'端或3'端的位置。9.根据权利要求1所述的方法,其中,每个MSA子集起始位置移动的所述指定的核酸数的位置不超过相应MSA子集的长度。10.根据权利要求1所述的方法,其中,每个MSA子集的起始位置向5'端方向移位。11.根据权利要求1所述的方法,其中,每个MSA子集的起始位置向3'端方向移位。12.根据权利要求1所述的方法,其中,用于独立移动每个MSA子集的所述指定的核酸数的位置和/或所述指定的方向增加在所述经调整的MSA子集内的保守位置的数量。13.根据权利要求1所述的方法,其中,由步骤(b)(ii)的移位产生的经调整的MSA子集满足设定的空间限制。14.根据权利要求1所述的方法,其中,用于独立移位每个MSA子集的所述指定的核酸数的位置和/或所述指定方向增加所述保守位置在所述经调整的MSA子集的中心区域内的设置。15.根据权利要求1所述的方法,其中,步骤(b)(iii)的终止标准包括移位迭代的预设数量,经调整的MSA子集内的保守位置的预设百分比,用于定位保守位置的预设阈值等。16.根据权利要求1所述的方法,其中,步骤(b)(iv)中的聚类包括使用距离度量按照相似性对每个经调整的MSA子集的经调整的核酸子序列进行分组,以为每个经调整的MSA提供一组或多组经调...

【专利技术属性】
技术研发人员:詹晟曦郭思明穆罕默德·A·卡迪尔
申请(专利权)人:方馨基因组学公司
类型:发明
国别省市:加拿大,CA

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1