一种基于后缀数组与单调栈的基因组组装预处理方法技术

技术编号:31787802 阅读:35 留言:0更新日期:2022-01-08 10:44
本发明专利技术涉及一种基于后缀数组与单调栈的基因组组装预处理方法,其中基于后缀数组与单调栈的基因组组装预处理方法包括:首先在NCBI官方网站获取需要进行基因组组装的数据集,对数据集进行处理。将数据拼接后利用gSACA

【技术实现步骤摘要】
一种基于后缀数组与单调栈的基因组组装预处理方法


[0001]本专利技术涉及生物信息学领域,尤其涉及一种基于后缀数组与单调栈的基因组组装预处理方法。

技术介绍

[0002]基因组组装预处理是基因组组装的一部分,基因组组装是将对基因进行测序产生的基因测序数据进行拼接组装,以还原出原始的基因序列为最终目标。任何基因测序数据都需要进行基因组组装,因此不可避免的要进行基因组组装预处理。基因组组装预处理作为基因组组装的基础步骤,一直是生物信息学的热门研究方向。
[0003]基因组组装中常用的两种算法分别为OLC算法与DBG算法,其中OLC算法的第一部分是获取测序数据的overlap信息也就是基因组组装预处理,这是OLC算法的核心步骤之一。获取测序数据的overlap信息是指计算给定的测序数据之间的重叠,根据重叠信息求取每个序列最有可能的前驱或后继,这也是很多生物信息学应用的初步步骤。通过求取基因测序数据中的overlap信息以获得测序数据之间具体的组装顺序,利用这些信息以测序数据为点以overlap信息为边建立相应的边权图,将组装问题转换为图论本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于后缀数组与单调栈的基因组组装预处理方法,其特征在于,包括如下步骤:步骤1:对获取到的基因测序数据进行处理,按照数据格式将数据分组并读取有效信息;步骤2:将读取到的信息进行处理,构建相应的辅助信息,包括后缀数组与单调栈等高级数据结构;步骤3:通过遍历所获得的后缀数组并维护单调栈来获取所需信息,将信息整理后输出。2.根据权利要求1所述的基于后缀数组与单调栈的基因组组装预处理方法,其特征在于,所述步骤1包括如下步骤:步骤1.1:在NCBI的官方网站获取需要进行基因组组装的基因测序数据;步骤1.2:对输入的基因测序数据集中的数据进行处理,每四行数据为一组,一次读入一组数据;将其第二行保留,其余数据视为无用数据进...

【专利技术属性】
技术研发人员:陈宇由东亮
申请(专利权)人:东北林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1