The invention discloses a genome sequence alignment method and device, including: read partial genomic sequences from genomic sequences to be compared in the file, in accordance with the ratio of the bidirectional BWT algorithm; single ended dynamic programming alignment algorithm and double dynamic programming alignment algorithm, the partial genome sequence compared with the reference sequence in genome; according to the end than any of the alignment algorithm, which does not exist when the partial genomic sequence without sequence alignment when the read part of the genome sequence of new genomic sequences from the file to be compared, in accordance with the above steps to compare; repeat the above steps until all the completed genome sequence alignment of the files to be compared. Output results. The invention relates to a method and a device for genome sequence alignment, which can solve the problems that the sequence alignment algorithm of a genome has the advantages of longer time consuming, slow processing and consuming more resources.
【技术实现步骤摘要】
基因组序列比对方法及装置
本专利技术涉及数据处理
,特别是指一种基因组序列比对方法及装置。
技术介绍
基因组序列比对是基因组数据分析的一般基础处理步骤,这个过程的目的是定位测序序列在参考基因组上的位置。人类基因组的参考基因组序列长度有约3GB,测序序列长度一般在100bp到150bp之间,一般全基因组测序的序列数据总量大约在100GB左右。比对这些序列,目前业界一般使用开源的比对软件,比较有名的有BWA、Bowtie2,一般处理时间在10小时以上,是基因组数据分析里面主要消耗时间步骤。然而,这些常见的二代基因组测序序列比对算法普遍存在耗时较长、处理进度慢、消耗资源多的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种基因组序列比对方法及装置,能够解决基因组序列比对算法的耗时较长、处理进度慢、消耗资源多的问题。基于上述目的本专利技术提供的基因组序列比对方法,包括:从待比对的基因组序列文件中读取部分基因组序列;按照双向BWT比对算法,将所述部分基因组序列与参考基因组序列进行比对;当按照双向BWT比对算法比对结束后,所述部分基因组序列中至少存在一对reads ...
【技术保护点】
一种基因组序列比对方法,其特征在于,包括:从待比对的基因组序列文件中读取部分基因组序列;按照双向BWT比对算法,将所述部分基因组序列与参考基因组序列进行比对;当按照双向BWT比对算法比对结束后,所述部分基因组序列中至少存在一对reads中仅有一条read比对上时,按照单端动态规划比对算法,将所述部分基因组序列中仅有一条read比对上的每对reads,与参考基因组序列再次进行比对;当单端动态规划比对算法比对结束后,所述部分基因组序列中还至少存在一对reads中两条read均未比对上时,按照双端动态规划比对算法,将所述部分基因组序列中两条read均未比对上的每对reads,与参 ...
【技术特征摘要】
1.一种基因组序列比对方法,其特征在于,包括:从待比对的基因组序列文件中读取部分基因组序列;按照双向BWT比对算法,将所述部分基因组序列与参考基因组序列进行比对;当按照双向BWT比对算法比对结束后,所述部分基因组序列中至少存在一对reads中仅有一条read比对上时,按照单端动态规划比对算法,将所述部分基因组序列中仅有一条read比对上的每对reads,与参考基因组序列再次进行比对;当单端动态规划比对算法比对结束后,所述部分基因组序列中还至少存在一对reads中两条read均未比对上时,按照双端动态规划比对算法,将所述部分基因组序列中两条read均未比对上的每对reads,与参考基因组序列再次进行比对;在按照前述任一比对算法比对结束后,当所述部分基因组序列中不存在没有比对上的序列时,从待比对的基因组序列文件中读取新的部分基因组序列,按照上述步骤继续进行比对;重复上述步骤,直至全部比对完成所述待比对的基因组序列文件,输出比对结果。2.根据权利要求1所述的方法,其特征在于,按照双向BWT比对算法比对基因组序列的方法,具体包括:使用鸽舍原理对reads进行分段;建立所述参考基因组序列的BWT、后缀数组及参考基因组序列逆序的BWT;使用后向搜索和前向搜索分别对reads或reads的每个片段从右到左和从左到右两个方向搜索其在参考基因组序列上的位置。3.根据权利要求1所述的方法,其特征在于,按照单端动态规划比对算法比对基因组序列的方法,具体包括:确定一对reads中的一条比对到所述参考基因组序列上的特定位置;根据预设位置范围阈值,选取所述特定位置周围的特定范围;在所述特定范围内使用动态规划算法对一对reads中的没有被比对上的另一条进行比对。4.根据权利要求1所述的方法,其特征在于,按照双端动态规划比对算法比对基因组序列的方法,具体包括:对一对reads中的每条分别构建种子;将每一个种子比对到参考基因组序列上;若在所述参考基因组序列的某一区域,所述reads的两条分别有相应的种子比对上,则该区域为最终比对位置的候选区域;在所...
【专利技术属性】
技术研发人员:何光铸,王东辉,蔡文君,刘凯,
申请(专利权)人:北京荣之联科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。