一种利用倍增算法改进基于BWT变换的基因序列比对方法技术

技术编号：37112807 阅读：26 留言：0更新日期：2023-04-01 05:09

一种利用倍增算法改进基于BWT变换的基因序列比对方法，涉及生物信息学领域，首先利用倍增算法直接通过参考长序列计算出后缀数组，然后得到BWT变换所需的数据结构。在空间上不需要再存储BWT矩阵，省去了N*N的二维空间，在时间上也获得较大的提升。对种子序列进行了预处理操作，将种子序列排序后，使相同后缀的聚集在一起，这样方便保存上一个种子序列比对的中间结果，减少了比对次数。找到sa区间后利用BFS宽搜的方法进行搜索，宽搜可以保证最快找到最优的序列得分，不会漏掉最优的sa，然后用堆数据结构进行保存，每次堆顶都会是得分最高分，每次取得分最高项进行下一层搜索，一直到匹配结束就是最优的匹配结果。匹配结束就是最优的匹配结果。匹配结束就是最优的匹配结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种利用倍增算法改进基于BWT变换的基因序列比对方法

[0001]本专利技术涉及生物信息学领域，具体是涉及一种利用倍增算法改进基于BWT变换的基因序列比对方法。

技术介绍

[0002]序列比对，是生物信息学中一项重要的、关键的、基础的研究内容，是基因拼接组装的第一步，它是一个把测序仪测出的多个read(种子序列)比对到Reference(参考基因组)上的过程。第一代测序技术，获取的数据量不是很多，所以设计一系列基于哈希算法的软件。随着下一代测序技术快速发展，日益增长的海量测序数据给序列比对带来了巨大挑战。
[0003]因此，生物界提出一种利用基于BWT变换(Burrows
‑
Wheeler Transform)算法解决序列比对，可以解决序列占有空间庞大的问题，提高序列比对速度和空间的减少。但是，DNA测序数据爆炸式积累的速度远远大于其被处理的速度，如何进一步提高序列比对速度和空间的减少一直是生物信息学的一个难题。

技术实现思路

[0004]本专利技术的目的在于提出一种利用倍增算法改进...

【技术保护点】

【技术特征摘要】
1.一种利用倍增算法改进基于BWT变换的基因序列比对方法，其特征在于，比对方法步骤主要为：步骤1：利用倍增算法对参考长序列Reference计算出sa后缀数组，sa后缀数组记录传统构建N*N的BWT矩阵排序之前的行号，即F列的位置；其中N是参考长序列Reference的长度；步骤2：对参考长序列Reference遍历建立C数组，C(a)数组计算在Reference[0,N
‑
2]比字符a小的元素个数，记录字符a的首地址；步骤3：利用sa后缀数组和参考长序列Reference计算出L列，即传统构建N*N的BWT矩阵排序后最右边的一列；步骤4：通过建立好的C数组，得到F列，即传统构建N*N的BWT矩阵排序后最左边的一列；步骤5：利用步骤3的L列计算OCC数组，OCC(a,i)为a在L数组i+1行之前出现的次数，从而BWT所需要的数据结构建立完成；步骤6：使用基数排序和计数排序相结合的方法对reads种子序列从右往左按照字典顺序排序，使得相同后缀的read聚集在一起；步骤7：通过比较上下两条read找出相同后缀，从右边起，第一个不相同的碱基就是比对的起始位置，确定read比对的起始位置之后，利用步骤1
‑
5构建的BWT数据结构和BFS宽搜的方法找到...

【专利技术属性】
技术研发人员：窦岩，胡春玲，邵鸣义，
申请(专利权)人：合肥学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人