宏基因组序列的组装制造技术

技术编号:9034174 阅读:208 留言:1更新日期:2013-08-15 01:01
本发明专利技术描述了用于组装宏基因组序列的系统和方法。在一个实施例中,在三维空间中表示多个宏基因组序列,以获得多个序列向量。基于多个序列向量,在三维空间中定义一个具有多个网格的立方体,使得所述立方体包含所述多个宏基因组序列。进一步地,基于遍历所述多个网格,将多个宏基因组序列组装成一个或多个重叠群。在一个实施例中,组装一个或多个重叠群,使得一个重叠群包括可能源自同一基因组的宏基因组序列。

【技术实现步骤摘要】

本专利技术大体涉及宏基因组领域,特别地,涉及构成宏基因组数据的序列的组装。
技术介绍
通过对基因材料进行测序,对从环境样品中直接获取的基因材料的研究,被称为宏基因组学。宏基因组学提供了有关环境样品中存在的各种有机体的遗传多样性和生理机能的信息。在基因组研究中涉及的设备(例如研究实验室或诊室)一般使用高通量平台(例如下一代测序(N GS)平台),该平台每年能够生成数量庞大的宏基因组数据。可以进一步分析由此生成的宏基因组数据,例如,来确定宏基因组数据中存在的各种有机体,以及来鉴别它们包括的各种基因的功能作用。通常地,为了进一步的分析和将来的研究,可以将宏基因组数据储存起来。因此,每年都生成数量庞大的、数百千兆字节(TB)范围内的宏基因组数据,这些数据被储存于库中以用于将来的研究。为了分析这些宏基因组数据,通常将构成宏基因组数据的核苷酸序列(例如DNA或RNA序列)组装成称为重叠群(contigs)的较大序列。组装过程一般涉及到对核苷酸序列进行成对比较并进行以百万计的编号,因此需要巨大的计算资源和基础设施。进一步地,若试图组装核苷酸序列,该序列来源于属于不同分类群的大量有机体的基因组,则可能导致错误的嵌合序列的形成,这会对宏基因组数据的分析结果造成影响。
技术实现思路
本概要被提供来介绍与宏基因组序列的组装相关的概念,该概念在下面的详细说明中会进一步描述。本概要并不旨在鉴别要求保护的主题的本质特征,也不旨在用于确定或限制要求保护的主题的范围。在此描述了用于组装宏基因组序列的方法和系统。在一个实施例中,用于组装宏基因组序列的方法包括在三维空间中表示多个宏基因组序列中的每一个,以获得多个序列向量。进一步地,基于多个序列向量,在三维空间中定义具有多个等尺寸的较小立方体(下文称为网格)的立方体。在一个实施例中,所述立方体被定义为其包括与多个宏基因组序列相对应的序列向量。进一步地,逐步遍历所述多个网格,以识别所述多个宏基因组序列并将其组装成一个或多个重叠群。在一个实施例中,将所述一个或多个重叠群如此组装:一个重叠群包括可能来源于同一基因组的宏基因组序列。附图说明参考附图对详细说明进行了描述。在附图中,参考数字最左边的数字标示了首次出现该参考数字的附图。在附图中使用同样的数字来引用相似的特征和部件。图1(a)根据本专利技术的一个实施例,说明了一个宏基因组序列组装系统。图1(b)根据本专利技术的一个实施例,说明了由用于组装宏基因组序列的宏基因组序列组装系统生成的立方体。图1(C)根据本专利技术的一个实施例,说明了通过宏基因组序列组装系统在立方体上实施的逐步遍历的图形表示。图2根据本专利技术的一个实施例,说明了使用宏基因组序列组装系统获得的纯网格所覆盖的宏基因组序列的百分比,该百分比以条形来描述。图3根据本专利技术的一个实施例,说明了用于组装宏基因组序列的方法。图4根据本专利技术的一个实施例,说明了生成用于组装宏基因组序列的一组参考点的方法。具体实施例方式在此描述了用于组装宏基因组序列的方法和系统。通常地,出于研究或医学目的,无论是从生物样品还是环境样品中直接提取的基因材料(即宏基因组),都会作为宏基因组数据被处理和储存起来。对所述基因材料进行测序,以生成多个核苷酸序列(例如DNA或RNA序列)。随后可以将所述核苷酸序列(也被称为宏基因组序列)组装成称为重叠群的基因组片段,这些片段与环境样品中存在的有机体的基因组相对应。可以对所述重叠群作进一步分析,例如,来评估环境样品中存在的有机体的遗传多样性和功能概况。已经有多种组装技术,被用于将从特定环境样品中存在的多种有机体得到的宏基因组序列组装成与其对应的重叠群。传统的组装技术包括将宏基因组序列与预定的基于寡核苷酸频率的模型进行对比,并将宏基因组序列标记至显示出最高相似度的模型。然后可以将标记至相似模型的宏基因组序列组装成重叠群。但是属于未知基因组的宏基因组序列可能不会对任何模型显示出显著的相似度,从而可能不会被组装成重叠群,因此会造成含义不明、降低 分析效率。另一种传统技术包括基于每个宏基因组序列的分类起源来组装宏基因组序列。可以将具有相似分类起源的宏基因组序列组装起来形成重叠群。但是使用上述方法可能不能有效地组装宏基因组序列,例如,当宏基因组序列属于尚未被分类学分类的有机体时。因此可能不能将属于这些未知有机体的宏基因组序列组装成重叠群,会使宏基因组数据的结果和分析模棱两可。另一种传统技术包括基于宏基因组序列的寡核苷酸使用模式来组装宏基因组序列。根据这种技术,首先可以使用聚类技术(例如K-means)将具有相似寡核苷酸使用模式的宏基因组序列分成聚类。随后,可以将属于单一聚类的宏基因组序列组装成重叠群。为了这个目的,将每一个宏基因组序列转换成一个η维向量,使得每个η维度都与宏基因组序列中特定的寡核苷酸频率以及给定的长度相对应。进一步地,可以基于其对应的η维向量之间的相对偏差,将宏基因组序列分成聚类。但是基于较长的寡核苷酸的频率的宏基因组序列聚类可能会导致错误的聚类,例如,在宏基因组序列的长度少于1000bps的情况下。进一步地,属于这些含糊的聚类的宏基因组序列的组装可能会导致不正确的重叠群。再者,因为计算频率和n维向量之间的距离都需要时间,基于这些频率组装宏基因组序列可能需要更多的时间和计算资源。本专利技术描述了使用优化的数据划分方法,将宏基因组序列组装成重叠群的方法和系统。虽然这里关于宏基因组数据的说明相当详细,所述宏基因组数据具有与构成宏基因组数据的不同基因组的片段相对应的宏基因组序列,应该理解的是,本领域技术人员应该理解,尽管有些许变化,可以将用于组装的方法和系统实施于具有来自相同基因组的基因组片段的基因组数据。根据本专利技术的一个实施例,具有多个宏基因组序列的宏基因组数据被接收来组装成多个重叠群。应该理解的是,通过与环境样品中存在的一个独特有机体相关的每个基因组,每个重叠群构成与一个独特基因组相对应的宏基因组序列。进一步地,为了获得与环境样品中存在的有机体相对应的较长重叠群或完整基因组,可以使用上面描述的方法的连续迭代,对由此生成的重叠群进行处理。首先基于每个宏基因组序列的所有可能的四核苷酸的频率,将从宏基因组数据获取的每个宏基因组序列转换成一个256维向量(下文称为中间向量)。在将由此获得的多个中间向量转换成三维空间中的多个序列向量,使得每个宏基因组序列都被表示为三维空间中的一个序列向量。在一个实施例中,例如使用基于多个参考基因组获得的一组参考点,将宏基因组序列表示为序列向量。进一步地,基于序列向量,可以在三维空间中定义一个立方体,使得所述立方体内含有与所有宏基因组序列相对应的序列向量。进一步地,可以将所述立方体分成多个等尺寸的较小立方体(下文称为网格),使得每个网格含有位于由立方体中特定的网格所定义的坐标之内的序列向量,并反过来包括宏基因组序列。进一步地,可以使用逐步遍历(progressive traversal)的方法,对每个网格进行分析,来识别所有可能属于特定基因组的宏基因组序列并对其进行分组。在一个实施例中,网格被如此遍历:在每一个遍历步骤中,获得一个网格及其邻近网格(统称为网格聚类)中的宏基因组序列。可以进一步将由此获得的宏基因组序列组装成重叠群,使得具有相似分类起源的宏基因组序列本文档来自技高网...
宏基因组序列的组装

【技术保护点】
一种组装宏基因组序列的方法,包括:在三维空间中表示多个宏基因组序列中的每一个,以获得多个序列向量;基于多个序列向量,在三维空间中定义一个具有多个网格的立方体,其中所述立方体包含所述多个宏基因组序列;并且逐步遍历所述多个网格,以将多个宏基因组序列组装成一个或多个重叠群,其中,一个重叠群包括源自同一基因组的宏基因组序列。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:沙米拉·谢克哈·马休塔里尼·山卡·果时瓦伦·梅拉
申请(专利权)人:塔塔咨询服务有限公司
类型:发明
国别省市:

网友询问留言 已有1条评论
  • 来自[江西省南昌市电信] 2015年01月17日 17:54
    宏碁集团(简称宏碁),品牌为“Acer”,是台湾的电脑制造公司,由施振荣等人于1976年8月1日创立,目前是全球第四大个人电脑制造商,同时也是全球第三大笔记本电脑制造商。[1]主要生产桌上型电脑和笔记型电脑,以及个人数位助理、服务器、显示器和其他储存装置等电脑周边产品。
    0
1