测序方法技术

技术编号:37481651 阅读:9 留言:0更新日期:2023-05-07 09:21
本发明专利技术涉及用于生成至少一个个体靶模板核酸分子的序列的方法,包括:提供包含至少两个靶模板核酸分子的核酸分子的至少一个样品;将第一分子标记引入所述至少两个靶模板核酸分子中的每一个的一端,并将第二分子标记引入所述至少两个靶模板核酸分子中的每一个的另一端,以提供至少两个带标记模板核酸分子,其中每个带标记模板核酸分子是以独有的第一分子标记和独有的第二分子标记进行标记的;扩增所述至少两个带标记模板核酸分子,以提供所述至少两个带标记模板核酸分子的多个拷贝;对所述至少两个带标记模板核酸分子包括所述第一分子标记和所述第二分子标记的区域进行测序;和为所述至少两个靶模板核酸分子中的至少一个重建共有序列。个重建共有序列。个重建共有序列。

【技术实现步骤摘要】
测序方法


[0001]本专利技术涉及用于生成模板核酸分子的序列的方法,用于确定至少两个模板核酸分子的序列的方法,适于执行所述方法的计算机程序,和用于存储所述计算机程序的计算机可读介质。

技术介绍

[0002]通常,难以有效和快速地测序长核酸序列(例如大于1Kbp的序列)。目前,测序技术可以产生大量短序列(即短核酸分子的序列)或少量长序列。目前,难以对大量的长序列进行测序。16S rRNA基因用于系统发育研究,因为它在不同种类的细菌和古细菌之间是高度保守的。除了高度保守的引物结合位点之外,16S rRNA基因序列包含可以提供用于细菌鉴定的物种特异性标记序列的高变区。因此,16S rRNA基因测序在医学微生物学中已经普遍成为细菌鉴定的表型方法的快速和便宜的替代方式。此外,尽管其最初用于鉴定细菌,但随后发现16S测序能够将细菌重新分类为完全新的物种或甚至属。它也成为用于在实验室培养物和非培养环境样品中识别和描述新细菌物种的主要标准之一。但是,由于大于1Kbp的大量核酸分子测序的相关困难,阻碍了16S rRNA序列分析的应用。这意味着,一般来说,执行16S序列分析的大多数研究者倾向于着眼在16S基因的至多500bp的短区域。这样的短区测序导致了分类学分辨率的缺乏。
[0003]此前已经描述了提高高通量测序仪器的序列读取长度的方法。其中包括复杂性降低方法,例如Illumina的Moleculo,其将独有的条形码归类至DNA分子的100s池,以及分子标记方法,其向每个个体分子添加独有的条形码样品。两种方法均通过分析属于每个条形码的短序列的集合来重建原始模板分子,计算重建原始模板的共有序列。两种方法均依赖于扩增,以产生条形码池或带标记单分子的许多拷贝。但是,这些现有方法都没有使用分子系统来检测由扩增引入的体外重组错误。

技术实现思路

[0004]本专利技术人开发了允许快速且精确地对核酸的长序列进行测序的技术。该技术可用于许多不同的应用中,但是特别有利于用于16S rRNA基因测序,因为其可用于生成跨1.5Kbp基因全长的大量长序列。因此,这种技术可用于对整个16S rRNA基因进行测序,提供比包括对16S rRNA基因的较短区域进行测序的现有方法更大的分类学分辨率。
[0005]此外,本专利技术人开发了一种技术,其允许识别和忽略在测序过程中产生的重组产物的序列。这提高了一般测序的灵敏度和准确性,并且当该技术用于使用16S测序的系统发育研究时,这种精度提高了分类学分辨率。
[0006]本专利技术的第一方面中,提供了一种用于生成具有至少一个长度大于1Kbp的个体靶模板核酸分子的序列的方法,包括:
[0007]a)提供包含长度大于1Kbp的至少两个靶模板核酸分子的核酸分子的至少一个样品;
[0008]b)将第一分子标记引入所述至少两个靶模板核酸分子中的每一个的一端,并将第二分子标记引入所述至少两个靶模板核酸分子中的每一个的另一端,以提供至少两个带标记模板核酸分子,其中所述至少两个带标记模板核酸分子中的每一个是以独有的第一分子标记和独有的第二分子标记进行标记的;
[0009]c)扩增所述至少两个带标记模板核酸分子,以提供所述至少两个带标记模板核酸分子的多个拷贝;
[0010]d)分离所述至少两个带标记模板核酸分子的多个拷贝的一部分,并令所述部分中的所述带标记模板核酸分子片段化以提供多个片段化的模板核酸分子;
[0011]e)对所述至少两个带标记模板核酸分子的多个拷贝中包括所述第一分子标记和所述第二分子标记的区域进行测序;
[0012]f)对所述多个片段化模板核酸分子进行测序;和
[0013]g)从包含步骤f)中产生的序列的至少一个子集的序列,为所述至少两个模板核酸分子中的至少一个重建共有序列。
[0014]本专利技术的第二方面中,提供了一种用于测定至少一个个体靶模板核酸分子的序列的方法,包括以下步骤:
[0015](a)获得包含至少两个带标记模板核酸分子的多个拷贝的区域的序列的数据,其中所述至少两个带标记模板核酸分子中的每一个在一端包含第一分子标记,在另一端包含第二分子标记,其中每个靶模板核酸分子以独有的第一分子标记和独有的第二分子标记进行标记,且其中所述区域包含所述第一分子标记和第二分子标记;
[0016](b)通过将包含彼此同源的第一分子标记和彼此同源的第二分子标记的序列归类给相同的簇,来分析包含所述至少两个带标记模板核酸分子的区域序列的数据,以识别可能对应于相同的个体靶模板核酸分子的序列簇,所述带标记模板核酸分子包含所述第一分子标记和第二分子标记;
[0017](c)获得包含所述至少两个带标记模板核酸分子的多个片段的序列的数据,其中每个所述片段包含所述第一分子标记或所述第二分子标记;
[0018](d)分析所述至少两个带标记模板核酸分子的多个片段的序列,以识别包含与所述第一簇的序列的第一分子标记同源的第一分子标记或与第一簇的序列的第二分子标记同源的第二分子标记的所述至少两个带标记模板核酸分子的多个片段的序列;
[0019](e)通过比对包含在步骤(d)中识别的所述至少两个带标记模板核酸分子的多个片段的序列的至少一个子集的序列,并从所述序列中定义共有序列,重建第一靶模板核酸分子的序列;和
[0020](f)对于第二模板核酸分子和/或更多的模板核酸分子,执行步骤(c)至(e)。
[0021]本专利技术的第三方面中,提供了一种用于用于确定至少一个靶模板核酸分子的序列的方法,包括以下步骤:
[0022]a)获得包含序列簇的数据,其中:
[0023](i)每个簇包括至少两个带标记模板核酸分子的多个拷贝的区域序列,其中所述至少两个带标记模板核酸分子中的每一个的一端包含第一分子标记且另一端包含第二分子标记,其中所述至少两个靶模板核酸中的每一个用独有的第一分子标记和独有的第二分子标记进行标记,
[0024]并且其中所述区域包含所述第一分子标记和所述第二分子标记;
[0025](ii)每个簇包含所述至少两个带标记模板核酸分子的多个片段的序列,其中每个所述片段包含所述第一分子标记或所述第二分子标记;
[0026](iii)每个簇中的所述至少两个带标记模板核酸分子的多个拷贝的区域序列,包含彼此同源的所述第一分子标记和所述第二分子标记;
[0027](iv)所述至少两个带标记模板核酸分子的多个片段的序列,包含与该簇中的所述至少两个靶模板核酸分子的多个拷贝的区域的序列的所述第一分子标记同源的第一分子标记或与该簇中的所述至少两个带标记模板核酸分子的多个拷贝的区域序列的所述第二分子标记同源的第二分子标记;
[0028](b)通过比对包含第一簇中的所述至少两个靶模板核酸分子的多个片段的序列的至少一个子集的序列,并且从这些序列定义共有序列,来重建第一靶模板核酸分子的序列;和
[0029](c)对于第二模板核酸分子和/或其他的模板核酸分子,执行步骤(b)。
[0030]本专利技术的第四方面中,提供了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于确定至少一种靶模板核酸分子的序列的计算机系统,所述计算机系统包括存储器和处理器,所述存储器和所述处理器被配置为:(a)获得包含至少两种带标记模板核酸分子的多个拷贝的区域的序列的序列数据,其中所述至少两种带标记模板核酸分子中的每一种包含在一端的第一分子标记和在另一端的第二分子标记;(b)通过将包含彼此同源的第一分子标记和彼此同源的第二分子标记的序列归类至同一簇,来对所述序列数据进行聚类;(c)访问包含所述至少两种带标记模板核酸分子的多个片段的片段序列的数据,其中每个所述片段包含所述第一分子标记或所述第二分子标记;(d)分析所述片段序列以识别包含与第一簇的序列中的所述第一分子标记同源的第一分子标记或与所述第一簇的序列中的所述第二分子标记同源的第二分子标记的序列;并且(e)通过比对包含在步骤(d)中识别的所述片段序列的至少一个子集的序列并且从这些序列定义共有序列,来重建第一靶模板核酸分子的序列。2.根据权利要求1所述的系统,其中用独有的第一分子标记和独有的第二分子标记对每种模板核酸分子进行标记,并且其中所述区域包含所述第一分子标记和所述第二分子标记。3.根据权利要求1所述的系统,其中对所述序列数据进行聚类包括对包含所述第一分子标记和所述第二分子标记的所述至少两种带标记模板核酸分子的区域的序列进行聚类,以识别可能对应于相同的个体靶模板核酸分子的序列簇。4.根据权利要求1所述的系统,其中所述存储器和所述处理器还被配置为针对第二靶模板核酸分子和/或另外的靶模板核酸分子执行步骤(c)至(e)。5.根据权利要求1所述的系统,其中步骤(b)还包括确定第一簇的用于所述第一分子标记序列的共有序列和用于所述第二分子标记序列的共有序列,并且步骤(d)包括识别多种片段化模板核酸分子的序列,所述片段化模板核酸分子包含与所述第一簇的用于所述第一分子标记的所述共有序列同源的第一分子标记或与所述第一簇的用于所述第二分子标记的所述共有序列同源的第二分子标记。6.一种用于确定至少一种靶模板核酸分子的序列的计算机系统,所述计算机系统具有存储器和处理器,所述存储器和所述处理器被配置为:(a)访问包含序列簇的数据,其中:(i)每个簇包含至少两种带标记模板核酸分子的多个拷贝的区域的序列,其中所述至少两种带标记模板核酸分子中的每一种包含在一端的第一分子标记和在另一端的第二分子标记;(ii)每个簇包含所述至少两种带标记模板核酸分子的多个片段的序列,其中每个所述片段包含所述第一分子标记或所述第二分子标记;(iii)每个簇中的序列包含彼此同源的第一分子标记和第二分子标记;(iv)所述序列包含与该簇中的至少两种带标记模板核酸分子的多个拷贝的区域的序列的所述第一分子标记同源的第一分子标记或与该簇中的所述至少两种带标记模板核酸分子的多个拷贝的区域的序列的所述第二分子标记同源的第二分子标记;和(b)通过比对包含第一簇中的所述至少两种带标记模板核酸分子的所述多个片段的序
列的至少一个子集的序列并且从这些序列定义共有序列,来重建第一靶模板核酸分子的序列。7.根据权利要求6所述的系统,其中所述存储器和所述处理器还被配置为针对第二模板核酸分子和/或另外的模板核酸分子执行步骤(b)。8.根据权利要求6所述的系统,其中所述存储器还被配置为:(v)通过将包含彼此同源的第一分子标记序列和彼此同源的第二分子标记序列的序列归类至同一簇,来识别可能对应于相同模板核酸分子的序列簇;和(vi)选择至少一个序列簇,其中经选择的簇内的序列包含比与其他第一分子标记或其他第二分子标记共有度更高地彼此关联的第一分子标记和第二分子标记。9.根据权利要求8所述的系统,其中(vi)包括:识别所述至少两种带标记模板核酸分子的序列簇的组,其中每组的簇内的序列具有彼此同源的第一分子标记和/或识别所述至少两种带标记模板核酸分子的序列簇的组,其中每组的簇内的序列具有彼此同源的第二分子标记;并且从所述序列簇的组中选择簇,其中被选择的所述簇包含最高数量的序列。10.根据权利要求8或9所述的系统,其中所述存储器被配置为通过比对步骤(vi)中被选择的簇中序列的至少一个子集并且从经比对的序列定义共有序列,来重建所述第一靶模板核酸分子的序列。11.根据权利要求10所述的系统,其中通过比对步骤(vi)中被选择的簇中序列分子的至少一个子集来重建第一靶模板核酸分子的共有序列是在不考虑序列簇下执行的,所述序列簇包含与第二分子标记关联的第一分子标记,所述第二分子标记相比于与第一分子标记共有度最高地关联的第二分子标记以至多1/10倍的共有度与所述第一分子标记关联。12.一种用于确定至少一种个体靶模板核酸分子的序列的计算机系统,具有存储器,所述存储器被配置为:(a)访问包含至少两种带标记模板核酸分子的多个拷贝的区域的序列的数据,其中所述至少两种带标记模板核酸分子中的每一种包含在一端的第一分子标记和在另一端的第二分子标记,其中用独有的第一分子标记和独有的第二分子标记对每种靶模板核酸分子进行标记,并且其中所述区域包含所述第一分子标记和所述第二分子标记;(b)分析包含含有所述第一分子标记和所述第二分子标记的所述至少两种带标记模板核酸分子的区域的序列的所述数据,以通过将包括彼此同源的第一分子标记和彼此同源的第二分子标记的序列归类到同一簇,来识别可能对应于相同模板核酸分子的序列簇;(c)选择至少一个序列簇,其中...

【专利技术属性】
技术研发人员:凯瑟琳
申请(专利权)人:伊鲁米那新加坡私人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1