一种基因组装的多线程化方法及系统技术方案

技术编号:35652306 阅读:15 留言:0更新日期:2022-11-19 16:47
本发明专利技术公开了一种基因组装的多线程化方法及系统,该方法包括如下步骤:S1:生成ID对接表;S2:使用B+树索引分别从硬盘或虚拟内存中提取编号read ID对应的碱基序列;S3:将对接关系后的多条序列依次与基准序列匹配;S4:读取能够和基准序列匹配的下一批编号read ID的碱基序列;S5:输出线程标识和匹配合并输出后的小型重叠群small contig;S6:当ID对接表读取完毕后,遍历ID对接表,将线程标识表中零散编号read ID的碱基序列替换为相应的碱基序列ID,并输出单核苷酸变异SNP信息表。本发明专利技术通过组建服务器集群进行计算,以其中一台作为共享存储,其他服务器各自领取任务执行,实现服务器多机并行计算,组装算法的线性性能递增,无限降低计算时间。限降低计算时间。限降低计算时间。

【技术实现步骤摘要】
一种基因组装的多线程化方法及系统


[0001]本专利技术属于生物信息学
,尤其涉及一种基因组装的多线程化方法及系统。

技术介绍

[0002]自2005年罗氏推出第一款二代测序仪罗氏454后,生命科学正式开始进入高通量测序时代。Illumina(因美纳)系列测序平台的推出,极大地降低了二代测序的价格,使得高通量测序在生命科学各个研究领域得到了广泛的普及。至今,第二代短读长测序技术在全球测序市场上仍然占有绝对的优势地位。
[0003]在生物信息学领域,基因组组装是基因组分析的核心问题。第二代测序技术虽然大大提高了测序的通量,但其获得的单条序列长度很短,往往只在50~300bp,并且因为测序的覆盖范围更深,导致基因组项目中需要处理的序列数量迅速增加,需要将这些较短的单条序列拼接为较长的完整序列用于进一步分析,提高物种注释分析的准确性。
[0004]由于组装技术的限制和实际情况的复杂性,在目前的组装算法中,通常要求一台服务器有极高的内存和CPU配置,在物种基因从头组装时只能使用一台服务器进行计算,所需时间和算力成本巨大。

技术实现思路

[0005]本专利技术的目的在于提供一种基因组装的多线程化方法及系统,以实现组装算法的线性性能递增,组建服务器集群进行计算,以其中一台作为共享存储,其他服务器各自领取任务多线程并行执行,推动生物信息学分析方法正式步入服务器集群化计算时代,正式实现服务器多机并行计算,无限降低计算时间。
[0006]本专利技术的目的是采用以下技术方案实现的:一种基因组装的多线程化方法,包括如下步骤:S1:将测序文件赋予自定义编号,对碱基序列使用神经网络模糊匹配算法获得其对应关系,即ID对接表;S2:开启多线程,每个线程按行读取ID对接表中的对应关系,并在该行前打上线程标识,使用B+树索引分别从硬盘或虚拟内存中提取编号read ID对应的碱基序列;S3:将对接关系后的多条序列依次与基准序列匹配,能对齐的合并,不能对齐的舍弃;S4:继续读取能够和基准序列匹配的下一批编号read ID的碱基序列,并提取对应的序列再次和该批次基准序列匹配;S5:若下一批序列的匹配已经有线程开启计算,则终止提取下一批序列,输出线程标识和匹配合并输出后的小型重叠群small contig;S6:若下一批序列的匹配暂无线程开启计算,则继续提取和基准序列匹配的下一批序列,和该批次的基准序列匹配,直到有一批序列中有一条已被其他线程开启计算,则终
止本次计算,输出线程标识和匹配合并输出后的小型重叠群small contig;S7:当ID对接表读取完毕后,遍历ID对接表,将线程标识表中零散编号read ID的碱基序列替换为相应的碱基序列ID,并输出单核苷酸变异SNP信息表。
[0007]进一步的,所述步骤S1具体包括:使用神经网络模糊匹配算法,将测序片段reads之间的前后匹配对应关系以ID对接表的形式输出,所述ID对接表的表达式为a

b、c、d,其中,a、b、c和d代表碱基序列ID,该表达式的含义为:a号序列和b、c、d号序列间存在前后对齐匹配关系。
[0008]进一步的,所述步骤S2具体包括:线程开启计算时,即在纳入线程范围的ID对接表中的编号read ID前打上标签,表示进行1

n号碱基序列的逐一匹配,在第一个线程进行计算,匹配1号与其他对接碱基序列时,则在ID对接表的第一行前打上标签作为线程标识数,表示第一个线程的第一次计算,并按照编号read ID根据B+树索引提取相应序列。
[0009]进一步的,所述步骤S3具体包括:将对接关系后的多条序列依次与基准序列匹配,当对接关系后的序列与基准序列的重叠部分存在80%及以上完全匹配的碱基时,则认为该序列存在前后重叠overlap区域,可以合并为一条序列;当对接关系后的序列与基准序列的重叠部分完全匹配碱基数目低于80%时,则舍弃该序列。
[0010]进一步的,所述步骤S4具体包括:当待测序列能和基准序列匹配时,继续搜索该待测序列的ID对接表,并提取该待测序对应的序列编号read ID,本批次以该待测序列为基准,其他序列依次和该待测序列匹配。
[0011]进一步的,所述步骤S5具体包括:当待测序列能和基准序列匹配时,继续搜该待测序列的ID对接表,若在ID对接表前已经开启计算该待测序列线程标识数,则停止计算,并输出本次计算的线程标识数以及该标识对应的基准序列的碱基序列,该条小型重叠群samll contig序列标识记为contig 1

1。
[0012]进一步的,所述步骤S6具体包括:1号测序片段reads计算完毕后,第一个线程开启第二次计算,寻找ID对接表中没有标识的测序片段reads,并在其前面打上线程标识,若存在能和该未标识的待测序列匹配的其它序列,且均未被其它线程开启标识,则同时提取该其它序列对接的碱基序列,进行拼接,直到检索到每一条序列前已有标识时,终止计算,并输出拼接后的碱基序列,该条小型重叠群small contig序列标识为contig 1

2,依次类推。
[0013]进一步的,所述步骤S7具体包括:当所有ID对接表均计算完毕后,检索全部标记上线程标识的ID对接表,将输出的线程标识表进行优化,其中线程的标识同时也代表了输出的小型重叠群small contig的编号,在提取测序片段reads进行逐一匹配时,能输出单核苷酸变异SNP的位点信息:该条小型重叠群small contig的标识、全长、单核苷酸变异SNP变异碱基位点、输出重叠群contig在该变异位点的碱基、发生变异后替换的碱基信息。
[0014]一种基因组装的多线程化系统,包括ID对接表生成模块、reads多线程匹配模块,其中,所述ID对接表生成模块用以实现存在前后匹配对齐关系的碱基序列的对应关系;所述reads多线程匹配模块用以实现多线程测序片段reads匹配,并组装为小型重叠群small contig。
[0015]本专利技术的有益效果在于:本专利技术通过组建服务器集群进行计算,以其中一台作为共享存储,其他服务器各自领取任务执行,实现服务器多机并行计算,组装算法的线性性能递增,无限降低计算时间,推动生物信息学分析方法正式步入服务器集群计算时代。
附图说明
[0016]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0017]图1为专利技术流程图;图2为头部对齐示意图;图3为尾部对齐或参差对齐示意图;图4为本专利技术系统框图。
具体实施方式
[0018]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因组装的多线程化方法,其特征在于,包括如下步骤:S1:将测序文件赋予自定义编号,对碱基序列使用神经网络模糊匹配算法获得其对应关系,即ID对接表;S2:开启多线程,每个线程按行读取ID对接表中的对应关系,并在该行前打上线程标识,使用B+树索引分别从硬盘或虚拟内存中提取编号read ID对应的碱基序列;S3:将对接关系后的多条序列依次与基准序列匹配,能对齐的合并,不能对齐的舍弃;S4:继续读取能够和基准序列匹配的下一批编号read ID的碱基序列,并提取对应的序列再次和该批次基准序列匹配;S5:若下一批序列的匹配已经有线程开启计算,则终止提取下一批序列,输出线程标识和匹配合并输出后的小型重叠群small contig;S6:若下一批序列的匹配暂无线程开启计算,则继续提取和基准序列匹配的下一批序列,和该批次的基准序列匹配,直到有一批序列中有一条已被其他线程开启计算,则终止本次计算,输出线程标识和匹配合并输出后的小型重叠群small contig;S7:当ID对接表读取完毕后,遍历ID对接表,将线程标识表中零散编号read ID的碱基序列替换为相应的碱基序列ID,并输出单核苷酸变异SNP信息表。2.如权利要求1所述的一种基因组装的多线程化方法,其特征在于,所述步骤S1具体包括:使用神经网络模糊匹配算法,将测序片段reads之间的前后匹配对应关系以ID对接表的形式输出,所述ID对接表的表达式为a

b、c、d,其中,a、b、c和d代表碱基序列ID,该表达式的含义为:a号序列和b、c、d号序列间存在前后对齐匹配关系。3. 如权利要求1所述的一种基因组装的多线程化方法,其特征在于,所述步骤S2具体包括:线程开启计算时,即在纳入线程范围的ID对接表中的编号read ID前打上标签,表示进行1

n号碱基序列的逐一匹配,在第一个线程进行计算,匹配1号与其他对接碱基序列时,则在ID对接表的第一行前打上标签作为线程标识数,表示第一个线程的第一次计算,并按照编号read ID根据B+树索引提取相应序列。4.如权利要求1所述的一种基因组装的多线程化方法,其特征在于,所述步骤S3具体包括:将对接关系后的多条序列依次与基准序列匹配,当对接关系后的序列与基准序列的重叠部分存在80%及以上完全匹配的碱基时,则认为该序列存在前后重叠overlap区域,可以合并为一条序列;当对接关系后的序列...

【专利技术属性】
技术研发人员:李国良张也彭德华吉祥宇刘原驰陆嘉华赵书磊陈星霖唐善雯吴蕾
申请(专利权)人:天津大学四川创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1