【技术实现步骤摘要】
一种利用倍增算法改进基于BWT变换的基因序列比对方法
[0001]本专利技术涉及生物信息学领域,具体是涉及一种利用倍增算法改进基于BWT变换的基因序列比对方法。
技术介绍
[0002]序列比对,是生物信息学中一项重要的、关键的、基础的研究内容,是基因拼接组装的第一步,它是一个把测序仪测出的多个read(种子序列)比对到Reference(参考基因组)上的过程。第一代测序技术,获取的数据量不是很多,所以设计一系列基于哈希算法的软件。随着下一代测序技术快速发展,日益增长的海量测序数据给序列比对带来了巨大挑战。
[0003]因此,生物界提出一种利用基于BWT变换(Burrows
‑
Wheeler Transform)算法解决序列比对,可以解决序列占有空间庞大的问题,提高序列比对速度和空间的减少。但是,DNA测序数据爆炸式积累的速度远远大于其被处理的速度,如何进一步提高序列比对速度和空间的减少一直是生物信息学的一个难题。
技术实现思路
[0004]本专利技术的目的在于提出一种利用倍增算法改进 ...
【技术保护点】
【技术特征摘要】
1.一种利用倍增算法改进基于BWT变换的基因序列比对方法,其特征在于,比对方法步骤主要为:步骤1:利用倍增算法对参考长序列Reference计算出sa后缀数组,sa后缀数组记录传统构建N*N的BWT矩阵排序之前的行号,即F列的位置;其中N是参考长序列Reference的长度;步骤2:对参考长序列Reference遍历建立C数组,C(a)数组计算在Reference[0,N
‑
2]比字符a小的元素个数,记录字符a的首地址;步骤3:利用sa后缀数组和参考长序列Reference计算出L列,即传统构建N*N的BWT矩阵排序后最右边的一列;步骤4:通过建立好的C数组,得到F列,即传统构建N*N的BWT矩阵排序后最左边的一列;步骤5:利用步骤3的L列计算OCC数组,OCC(a,i)为a在L数组i+1行之前出现的次数,从而BWT所需要的数据结构建立完成;步骤6:使用基数排序和计数排序相结合的方法对reads种子序列从右往左按照字典顺序排序,使得相同后缀的read聚集在一起;步骤7:通过比较上下两条read找出相同后缀,从右边起,第一个不相同的碱基就是比对的起始位置,确定read比对的起始位置之后,利用步骤1
‑
5构建的BWT数据结构和BFS宽搜的方法找到...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。