基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法技术

技术编号：9849562 阅读：160 留言：0更新日期：2014-04-02 16:26

本发明专利技术涉及基因测序技术领域，提供了一种基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法，包括：步骤A：读取测序数据源文件，构造多步双向De Bruijn图；步骤B：在所述多步双向De Bruijn图中对分叉顶点的变长kmer进行构造和统计；步骤C：在所述多步双向De Bruijn图中基于变长kmer查询的顶点扩展。本发明专利技术只选取一些分叉的顶点构建非常少的一些变长kmer，然后对这些分叉顶点进行定向解耦，无需对每种kmer长度都去构建一个De Bruijn图，可以方便快速地解决所有长度小于序列长度的repeat，最大化contig的长度和质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于多步双向De Bru i jn图的变长kmer查询的顶点扩展方法【
】本专利技术涉及基因测序
，特别是涉及一种。【
技术介绍
】基因序列分析以算法与数学模型为核心，研究内容涉及多个方面，主要包括:基因数据的存储与获取、序列比对、测序与拼接、基因预测、生物进化与系统发育分析、蛋白质结构预测、RNA结构预测、分子设计与药物设计、代谢网络分析、基因芯片、DNA计算等等。现在生物技术和计算机信息处理技术的紧密结合，加快了处理生物信息数据的速度，使得在尽量短的时间内对生物学意义做出尽量准确的诠释，加快了生物信息学的发展。目前，生物信息处理成为当前信息
面临的巨大挑战之一。基因序列分析是对海量基因序列数据进行分析，从而提取和挖掘新的生物信息知识。其中，涉及到计算机技术中的机器学习、模式识别、书籍分析与挖掘、组合数学、随机模型、字符串、图形算法、分布式计算、高性能计算、并行计算等知识。其中，全基因组学的研究是当前生物信息学研究的核心之一。基因是人类最基本的遗传密码，代表着每个人的生命信息。基因序列上存在着遗传位点的细微差异，这些遗传密码的多态性与人类的健康、致病机理、医学治疗有着相当密切的关系。其中，DNA测序是研究全基因组序列需要完成的基本内容之一。自1977年Sanger测序技术问世以来,经过三十多年的发展,DNA测序技术发展突飞猛进，以高通量、短序列为特点的第二代测序技术逐渐占领市场，以单分子测序为特点的第三代测序技术也逐渐出现，它们分别在测序特点上占有不同的优势。传统基因测序方法的数据提取和分析软件经过近10年来的研究与开发，目...

【技术保护点】
一种基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法，其特征在于，包括：步骤A：读取测序数据源文件，构造多步双向De Bruijn图；步骤B：在所述多步双向De Bruijn图中对分叉顶点的变长kmer进行构造和统计；步骤C：在所述多步双向De Bruijn图中基于变长kmer查询的顶点扩展。

【技术特征摘要】
1.一种基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法,其特征在于,包括: 步骤A:读取测序数据源文件，构造多步双向De Bruijn图；步骤B:在所述多步双向De Bruijn图中对分叉顶点的变长kmer进行构造和统计；步骤C:在所述多步双向De Bruijn图中基于变长kmer查询的顶点扩展。2.如权利要求1所述的方法，其特征在于，所述步骤B中，对所述多步双向DeBruijn图中的顶点所有可能的分叉合并路径上的k+2长的变长kmer构造权重表，选择权重最高的一组分叉路径组合进行分叉路径上的双向边合并。3.如权利要求1所述的方法，其特征在于，所述步骤C中，对于一个给定的分叉顶点U，在查询顶点u所有的k+2长的变长kmer权重值之后，选择权重最高的一组分叉路径组合进行分叉路径上的双向边合并，同时删除合并前的被选择的分叉双向边。4.如权利要求2或3所述的方法，其特征在于，所述权重为变长kmer出现次数或变长kmer模糊匹配加权次数。5.如权利要求1所述的方法，其特征在于，所述步骤B进一步包括: 步骤B1:遍历所述多步双向De Bruijn图中的每个顶点u ；步骤B2:统计顶点u中正向边的个数P和反向边的个数q ；步骤B3:若p+q大于等于3且P和q均至少为1，则执行步骤B4，否则返回执行步骤BI ；步骤B4:计算出顶点u的q个反向边的对偶双向边,并将对偶双向边的倒数第k+Ι个字符取出存到入边字符数组m ; 步骤B5:将顶点u的P个正向边的第一个字符存到出边字符数组η ；步骤Β6:将(m,顶点u的正向字符串，η)所有的组合构成的k+2长的kmer记录为变长kmer数组。6.如权利要求1所述的方法，其特征在于，所述步骤C进一步包括: 步骤Cl:打开测序序列文件，逐个读取每条序列；步骤C2:将所述变长kmer数组逐个匹配读入的序列，并对每个变长kmer计数；步骤C3:遍历所述多步双向De Bruijn图中的每个顶点u ；步骤C4:统计顶点u中正向边的个数P，反向边的个数q ；步骤C5:若p+q大于等于3且P和q均至少为1，则执行步骤C6，否则返回执行步骤C3 ；步骤C6:计算出顶点u的q个反向边的对偶双向边,并将对偶双向边的倒数第k+Ι个字符取出存到入边字符数组m ; 步骤C7:将顶点u的P个正向边的第一个字符存到出边字符数组η ；步骤C8:查询由(m,顶点u的正向字符串,η)的所有组合构成的k+2长的kmer的出现次数，选择出现次数最大的一组正向边和反向边进行合并扩展。7.如权利要求6所...

【专利技术属性】
技术研发人员：孟金涛，张慧琳，彭丰斌，魏彦杰，冯圣中，
申请(专利权)人：深圳先进技术研究院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人