一种基因组短序列映射的快速处理方法及系统技术方案

技术编号:4284476 阅读:350 留言:0更新日期:2012-04-11 18:40
本发明专利技术适用于基因工程技术领域,提供了一种基因组短序列映射的快速处理方法及系统,所述方法包括下述步骤:将测序序列按预设长度短串的碱基值排序;将序列片段重叠群逐个碱基切割成所述预设长度的短串;依次根据所述序列片段重叠群中所切割成的短串的碱基值在排序后的测序序列中查找相应的测序序列,建立映射关系。在本发明专利技术中,通过将测序序列按预设长度短串的碱基值排序,并将序列片段重叠群逐个碱基切割成预设长度的短串,依次根据序列片段重叠群中所切割成的短串的碱基值在排序后的测序序列中查找相应的测序序列,建立映射关系,实现了用于短序组装中的一种短序列映射,处理时间短、效率高。

【技术实现步骤摘要】

本专利技术属于基因工程
,尤其涉及一种基因组短序列映射的快速处理方法及系统
技术介绍
对大基因组的短序列进行组装面临内存的挑战,为了降低构建deBruijn图的内 存使用,组装软件可以不在内存中记录测序序列和序列片段重叠群(contig)之间的对应 关系,而只在contig组装完毕后,将正确的测序序列映射到contig上。现有的短序列比对 多采用计算机软件实现,主要分两类,一类使用了固定短串(kmer)的组合索引结构,另一 类使用的是后缀树类样的索引结构。现有短序列对比软件可以在两个错配之内将短序列映 射到contig上,但是在处理contig和短序列之间的比对时,处理时间长、效率低,不能很好 地满足短序列组装中的需求。
技术实现思路
本专利技术一个目的在于提供一种基因组短序列映射的快速处理方法和系统,旨在减 少contig和短序列之间的比对过程的处理时间、提高效率。 基于上述目的,本专利技术提供的一种基因组短序列的快速处理映射方法,所述方法 包括下述步骤 将测序序列按预设长度短串的碱基值排序; 将序列片段重叠群逐个碱基切割成所述预设长度的短串; 依次根据所述序列片段重叠群中所切割成的短串的碱基值在排序后的测序序列 中查找相应的测序序列,建立映射关系。基于上述目的,本专利技术提供的基因组短序列的快速处理映射系统,所述系统包括 排序单元,用于将测序序列按预设长度短串的碱基值排序; 切割单元,用于将序列片段重叠群逐个碱基切割成所述预设长度的短串;以及 映射单元,用于依次根据所述序列片段重叠群中所切割成的短串的碱基值在排序 后的测序序列中查找相应的测序序列,建立映射关系。 在本专利技术实施例中,通过将测序序列按预设长度短串的碱基值排序,并将contig 逐个碱基切割成预设长度的短串,依次根据contig中所切割成的短串的碱基值在排序后 的测序序列中查找相应的测序序列,建立映射关系,本专利技术技术方案从contig和参与拼接 的序列之间的比对出发,利用基于de Bruijn图组装出contig所具有的在定长的短串上不 存在重复的特点,实现了用于短序列组装中的短序列映射,所需处理时间明显縮短、效率大 幅提高。附图说明 图1是本专利技术实施例提供的基因组短序列映射的快速处理方法的实现流程4 图2是本专利技术实施例提供的基因组短序列映射的快速处理系统的结构图; 图3是本专利技术另一实施例提供的基因组短序列映射的快速处理系统的结构图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并 不用于限定本专利技术。 在本专利技术实施例中,通过将测序序列按预设长度短串的碱基值排序,并将contig 逐个碱基切割成预设长度的短串,依次根据contig中所切割成的短串的碱基值在排序后 的测序序列中查找相应的测序序列,建立映射关系。 图1示出了本专利技术实施例提供的基因组短序列映射的快速处理方法的实现流程, 详述如下 在步骤S101中,将测序序列按预设长度短串的碱基值排序。 在本专利技术实施例中,短串长度的选取严格等于在构建de Bruijn图时短串的长度, 即上述预设长度为构建de Bruijn图时短串的长度。将测序序列按短串的碱基值排序,可 以降低排序的复杂性。按预设长度切割各测序序列的短串,并从小到大按短串的碱基值排 序,生成一个短串数组,这个短串数组和各测序序列是一一对应的。其中,所述按预设长度 切割各测序序列的短串的步骤可以采用如下方式在当前被切割的测序序列上滑动截取短 串,滑动的步长为l个碱基,截取的窗口为所述预设长度,即构建de Bruiin图时短串的长 度。 另外,本步骤中,优选可以建立一个索引数组,用于记录短串数组中短串与contig 的对应关系。 在对短串进行排序时,可以使用桶排序方式对短串的碱基值进行排序。其中,每个桶子存放短串上的4个碱基,这样按4个碱基逐步完成排序。另外,在排序中使用另 一个前缀数组记录相邻短串间共有前缀的碱基个数,对前缀碱基个数的记录可以在桶排序内部完成。当然,也可以采用其他方法对短串的碱基值进行排序。 在步骤S102中,将contig逐个碱基切割成所述预设长度的短串。 在本专利技术实施例中,本步骤可采用如下方式提取contig保存在内存中,在contig上滑动截取短串,滑动的步长为1个碱基,截取的窗口为所述预设长度,即构建deBruijn图时短串的长度。 由于构建de Bruijn图时短串是唯一的,所以按照构建de Bruijn图时短串的长 度将contig逐个碱基切割成的各个短串是唯一的。 在步骤S103中,依次根据contig中所切割成的短串的碱基值在排序后的测序序列中查找相应的测序序列,建立contig与测序序列的映射关系。 上述步骤S103具体包括 步骤Sl.依次取contig切割得到的短串; 步骤S2.在排序后的测序序列中查找短串的碱基值与contig中所取短串的碱基 值相等的所有测序序列; 步骤S3.通过查询所述索引数组,在步骤S2查找到的测序序列与contig间建立映射关系。 在本专利技术实施例中,步骤S3具体包括利用索引数组保存的短串数组中短串与 contig的对应关系,根据步骤S2中查找到的测序序列中的短串在所述索引数组中查询对 应的contig,建立短串对应的测序序列与contig之间的映射关系。 在本专利技术实施例中,步骤S2中采用二分法在短串数组中查找与contig中所取短 串的碱基值相等的短串,实现短串间的比较,算法详述如下 初始化将起始位置L置为0,结束位置R设为N-l,最小共有前缀数1、最大共有 前缀数r都置为0 ; 步骤1.判断contig中所取短串W是否小于短串数组的短串A[O],如果是返回不 匹配的响应,否则进入步骤2 ; 步骤2.判断contig中所取短串W是否大于短串数组的第N个短串A[N-1],如果 是则返回不匹配的响应,否则进入步骤3 ; 步骤3.判断L+l是否小于结束位置R,如果是则进入步骤4,否则进入步骤8 ; 步骤4.查找中间位置M取为~^^碱基判断位置m取最小共有前缀数1和最大共有前缀数r 二者中的最小值;其中,m是L和R之间的最大共有前缀数。 步骤5.判断短串W的第m个碱基值Wm是否小于或等于查找中间位置短序的第m个碱基值A[M]m,如果是则进入步骤6,否则进入步骤7 ; 步骤6.结束位置R向前移动到查找中间位置M,用短串W与短序A[M]的共有前缀 数更新最大共有前缀数r,进入步骤3 ; 步骤7.起始位置L向后移动到查找中间位置M,用短串W与短序A[M]的共有前缀数更新最大共有前缀数l,进入步骤3 ; 步骤8.将起始位置L赋值为结束位置R。 A[R]即为查找到的短串,结合已经建立的前缀数组,找出A[R]前后碱基值均与其 相等的短串。再根据索引数组即可以得到这些短串对应的测序序列,进一步建立得到的这 些测序序列与contig的映射。当然,也可以根据其他查询方法在短串数组中查找与contig 中所取短串的碱基值相等的短串。 由于在生物学上,互补序列上的映射关系也是构成该contig的序列的正确关系, 为了同时得到contig的互补序列与测序序列本文档来自技高网...

【技术保护点】
一种基因组短序列映射的快速处理方法,其特征在于,所述方法包括下述步骤:将测序序列按预设长度短串的碱基值排序;将序列片段重叠群逐个碱基切割成所述预设长度的短串;依次根据所述序列片段重叠群中所切割成的短串的碱基值在排序后的测序序列中查找相应的测序序列,在查找到的测序序列与所述序列片段重叠群间建立映射关系。

【技术特征摘要】
一种基因组短序列映射的快速处理方法,其特征在于,所述方法包括下述步骤将测序序列按预设长度短串的碱基值排序;将序列片段重叠群逐个碱基切割成所述预设长度的短串;依次根据所述序列片段重叠群中所切割成的短串的碱基值在排序后的测序序列中查找相应的测序序列,在查找到的测序序列与所述序列片段重叠群间建立映射关系。2. 如权利要求l所述的方法,其特征在于,所述预设长度为构建de Bruijn图时短串的长度。3. 如权利要求2所述的方法,其特征在于,所述依次根据所述序列片段重叠群中所切 割成的短串的碱基值在排序后的测序序列中查找相应的测序序列,在查找到的测序序列与 所述序列片段重叠群间建立映射关系的步骤具体为依次取所述序列片段重叠群切割得到的短串;在排序后的测序序列中查找短串的碱基值与序列片段重叠群中所取短串的碱基值相 等的所有测序序列;在查找到的测序序列与所述序列片段重叠群间建立映射关系。4. 如权利要求3所述的方法,其特征在于,采用二分法在所述排序后的测序序列中查 找短串的碱基值与所述序列片段重叠群中所取短串的碱基值相等的测序序列。5. 如权利要求1所述的方法,其特征在于,在所述将测序序列按预设长度短串的碱基 值排序的步骤前,所述方法还包括根据所述测序序列得到其互补测序序列; 所述将测序序列按预设长度短串的碱基值排序的步骤为 将测序序列和得到的互补测序序列按所述预设长度短串的碱基值排序; 所述依次根据所述序列片段重叠群中所切割成的短串的碱基值在排序后的测序序列中查找相应的测序序列,在查找到的测序序列与所述序列片段重叠群间建立映射关系的步骤为依次根据所述序列片段重叠群中所切割成的短串的碱基值在排序后的测序序列及其 互补测序序列中查找相应的测序序列和/或互补测序序列,在查找到的测序序列和/或互 补测序序列与所述序列片段重叠群间建立映射关系。6. 如权利要求1所述的方法,其特征在于,在所述将序列片段重叠群逐个碱基切割成 所述预设长度的短串的步骤前,所述方法还包括根据所述序列片段重叠群得到其互补序列片段重叠群; 所述将序列片段重叠群逐个碱基切割成所述预设长度的短串的步骤为 将序列片段重叠群和得到的互补序列片段重叠群逐个碱基切割成所述预设长度的短串;所述依次根据所述序列片段重叠群中所切割成的短串的碱基值在排序后的测序序列 中查找相应的测序序列,建立映射关系的步骤为依次根据所述序列片段重叠群和得到的互补序列片段重叠群中所切割成的短串的碱 基值...

【专利技术属性】
技术研发人员:李瑞强朱红梅王俊杨焕明汪建
申请(专利权)人:深圳华大基因研究院
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1