基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法技术

技术编号:9849562 阅读:177 留言:0更新日期:2014-04-02 16:26
本发明专利技术涉及基因测序技术领域,提供了一种基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法,包括:步骤A:读取测序数据源文件,构造多步双向De Bruijn图;步骤B:在所述多步双向De Bruijn图中对分叉顶点的变长kmer进行构造和统计;步骤C:在所述多步双向De Bruijn图中基于变长kmer查询的顶点扩展。本发明专利技术只选取一些分叉的顶点构建非常少的一些变长kmer,然后对这些分叉顶点进行定向解耦,无需对每种kmer长度都去构建一个De Bruijn图,可以方便快速地解决所有长度小于序列长度的repeat,最大化contig的长度和质量。

【技术实现步骤摘要】
基于多步双向De Bru i jn图的变长kmer查询的顶点扩展方法【
】本专利技术涉及基因测序
,特别是涉及一种。【
技术介绍
】基因序列分析以算法与数学模型为核心,研究内容涉及多个方面,主要包括:基因数据的存储与获取、序列比对、测序与拼接、基因预测、生物进化与系统发育分析、蛋白质结构预测、RNA结构预测、分子设计与药物设计、代谢网络分析、基因芯片、DNA计算等等。现在生物技术和计算机信息处理技术的紧密结合,加快了处理生物信息数据的速度,使得在尽量短的时间内对生物学意义做出尽量准确的诠释,加快了生物信息学的发展。目前,生物信息处理成为当前信息
面临的巨大挑战之一。基因序列分析是对海量基因序列数据进行分析,从而提取和挖掘新的生物信息知识。其中,涉及到计算机技术中的机器学习、模式识别、书籍分析与挖掘、组合数学、随机模型、字符串、图形算法、分布式计算、高性能计算、并行计算等知识。其中,全基因组学的研究是当前生物信息学研究的核心之一。基因是人类最基本的遗传密码,代表着每个人的生命信息。基因序列上存在着遗传位点的细微差异,这些遗传密码的多态性与人类的健康、致病机理本文档来自技高网...

【技术保护点】
一种基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法,其特征在于,包括:步骤A:读取测序数据源文件,构造多步双向De Bruijn图;步骤B:在所述多步双向De Bruijn图中对分叉顶点的变长kmer进行构造和统计;步骤C:在所述多步双向De Bruijn图中基于变长kmer查询的顶点扩展。

【技术特征摘要】
1.一种基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法,其特征在于,包括: 步骤A:读取测序数据源文件,构造多步双向De Bruijn图; 步骤B:在所述多步双向De Bruijn图中对分叉顶点的变长kmer进行构造和统计; 步骤C:在所述多步双向De Bruijn图中基于变长kmer查询的顶点扩展。2.如权利要求1所述的方法,其特征在于,所述步骤B中,对所述多步双向DeBruijn图中的顶点所有可能的分叉合并路径上的k+2长的变长kmer构造权重表,选择权重最高的一组分叉路径组合进行分叉路径上的双向边合并。3.如权利要求1所述的方法,其特征在于,所述步骤C中,对于一个给定的分叉顶点U,在查询顶点u所有的k+2长的变长kmer权重值之后,选择权重最高的一组分叉路径组合进行分叉路径上的双向边合并,同时删除合并前的被选择的分叉双向边。4.如权利要求2或3所述的方法,其特征在于,所述权重为变长kmer出现次数或变长kmer模糊匹配加权次数。5.如权利要求1所述的方法,其特征在于,所述步骤B进一步包括: 步骤B1:遍历所述多步双向De Bruijn图中的每个顶点u ; 步骤B2:统计顶点u中正向边的个数P和反向边的个数q ; 步骤B3:若p+q大于等于3且P和q均至少为1,则执行步骤B4,否则返回执行步骤BI ; 步骤B4:计算出顶点u的q个反向边的对偶双向边,并将对偶双向边的倒数第k+Ι个字符取出存到入边字符数组m ; 步骤B5:将顶点u的P个正向边的第一个字符存到出边字符数组η ; 步骤Β6:将(m,顶点u的正向字符串,η)所有的组合构成的k+2长的kmer记录为变长kmer数组。6.如权利要求1所述的方法,其特征在于,所述步骤C进一步包括: 步骤Cl:打开测序序列文件,逐个读取每条序列; 步骤C2:将所述变长kmer数组逐个匹配读入的序列,并对每个变长kmer计数; 步骤C3:遍历所述多步双向De Bruijn图中的每个顶点u ; 步骤C4:统计顶点u中正向边的个数P,反向边的个数q ; 步骤C5:若p+q大于等于3且P和q均至少为1,则执行步骤C6,否则返回执行步骤C3 ; 步骤C6:计算出顶点u的q个反向边的对偶双向边,并将对偶双向边的倒数第k+Ι个字符取出存到入边字符数组m ; 步骤C7:将顶点u的P个正向边的第一个字符存到出边字符数组η ; 步骤C8:查询由(m,顶点u的正向字符串,η)的所有组合构成的k+2长的kmer的出现次数,选择出现次数最大的一组正向边和反向边进行合并扩展。7.如权利要求6所...

【专利技术属性】
技术研发人员:孟金涛张慧琳彭丰斌魏彦杰冯圣中
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1