一种基于基因数值化表达的二代从头组装方法及系统技术方案

技术编号:35652431 阅读:17 留言:0更新日期:2022-11-19 16:48
本发明专利技术公开了一种基于基因数值化表达的二代从头组装方法及系统,该方法包括如下步骤:S1:通过软磁盘阵列RAID实现碱基测序数据管理;S2:基因解析碱基序列并自定义编号;S3:计算每条测序片段reads两组特定长度的前后质心值;S4:通过每条测序片段reads的碱基序列和编号read ID构建B+树索引;S5:使用人工智能算法或数值快排算法生成ID对接表;S6:根据ID对接表多线程组装小型重叠群small contig,输出线程标识表、小型重叠群small contig片段及其编号和单核苷酸变异SNP信息表;S7:根据线程标识构建德布莱英图De Brujin Grapph并寻路,将小型重叠群small contig组装为重叠群contig;S8:基于重叠群contig组装框架序列scaffold。本发明专利技术彻底破除了生物信息学组装的内存过大难题,降低了组装错误风险。降低了组装错误风险。降低了组装错误风险。

【技术实现步骤摘要】
一种基于基因数值化表达的二代从头组装方法及系统


[0001]本专利技术属于生物信息学
,尤其涉及一种基于基因数值化表达的二代从头组装方法及系统。

技术介绍

[0002]自2005年罗氏推出第一款二代测序仪罗氏454后,生命科学正式开始进入高通量测序时代。Illumina(因美纳)系列测序平台的推出,极大地降低了二代测序的价格,使得高通量测序在生命科学各个研究领域得到了广泛的普及。至今,第二代短读长测序技术在全球测序市场上仍然占有绝对的优势地位。
[0003]在生物信息学领域,基因组组装是基因组分析的核心问题。第二代测序技术虽然大大提高了测序的通量,但其获得的单条序列长度很短,往往只在50~300bp,并且因为测序的覆盖范围更深,导致基因组项目中需要处理的序列数量迅速增加,需要将这些较短的单条序列拼接为较长的完整序列用于进一步分析,提高物种注释分析的准确性。
[0004]目前由于组装技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。目前主流的组装算法是DBG(De Brujin Grapph,德布莱英图)组装算法,二代测序得到的reads(测序片段)长度较短,数量较多,不易发现reads之间的重叠关系,因此采用将reads转化为定长k

mer(长度为K的核苷酸序列)从而寻找重叠关系,构建De Bruijn Graph,把短序列拼接问题转化为De Bruijn Graph中的欧拉路径问题。但基于k/>‑
mer的DBG组装算法仍然存在较大缺陷,如kmer序列较短,易受测序错误影响组装结果,寻找碱基之间的overlap(重叠)关系无法实现快排等。

技术实现思路

[0005]本专利技术的目的在于提供一种基于基因数值化表达的二代从头组装方法及系统,以解决在基因组组装中,测序片段reads排列速度较慢、生物信息学组装的内存过大、组装错误风险较高的技术问题。
[0006]本专利技术的目的是采用以下技术方案实现的:一种基于基因数值化表达的二代从头组装方法,包括如下步骤:S1:通过软磁盘阵列RAID实现碱基测序数据管理;S2:基因解析碱基序列并自定义编号;S3:计算每条测序片段reads两组特定长度的前后质心值;S4:通过每条测序片段reads的碱基序列和编号read ID构建B+树索引;S5:应用人工智能算法获得前后质心值与碱基序列对齐关系的匹配模型,或使用数值快速排列算法将质心值顺次排序,据此快排结果生成ID对接表;S6:根据ID对接表多线程组装小型重叠群small contig,输出线程标识表、小型重叠群small contig片段及其编号和单核苷酸变异SNP信息表;
S7:根据线程标识构建德布莱英图De Brujin Grapph并寻路,将小型重叠群small contig组装为重叠群contig;S8:基于重叠群contig组装框架序列scaffold。
[0007]进一步的,所述步骤S1具体包括:通过内置RAID卡或NFS协议,将磁盘中存储的碱基测序数据,以数据流形式陆续调入由高IOPS的硬盘组成的伪虚拟内存中,并且分散存储,所述碱基测序数据包括质心数据和基因文件。
[0008]进一步的,所述步骤S2具体包括:通过CPU从高随机读写能力固态硬盘中读取基因文件,得到多条基因测序片段reads,并对每条基因测序片段reads进行编号,得到随机编号ID,然后,通过CUDA流将基因测序片段reads和随机编号ID传输至GPU。
[0009]进一步的,所述步骤S3具体包括:通过GPU将碱基测序数据分别进行宏层标识,将每条测序片段reads前后分别去m和n个碱基,其中,m和n的数值不同,得到两组共四条拆分后的前后层片段,采取无监督机器学习分别将两组前层与后层序列表达为硬聚类计算的质心值。
[0010]进一步的,所述步骤S4具体包括:在两组特定长度的前后质心值,将每条测序片段reads的碱基序列及其对应的编号read ID构建起B+树索引,以实现碱基序列的随机提取。
[0011]进一步的,所述步骤S5具体包括:在得到所有测序序列两组不同片段的前后质心值后,使用人工智能算法,将两条序列的两组前后层质心和序列长度作为输入向量,两条序列是否能匹配作为输出向量,应用深度学习神经网络(DNN)获得前后质心值与碱基序列对齐关系的匹配模型,据此生成高准确的ID对接表,或使用数值快排算法,将质心顺次排序,据此生成ID对接表。
[0012]进一步的,所述人工智能算法包括以下子步骤:S51:将两条序列的两组前后质心值及其序列长度变换至[

1,1]以内,作为数据集的输入向量x;S52:将两条序列使用KMP算法进行匹配对齐,若能对齐匹配,则返回TRUE,y=1,不能对齐匹配,返回FALSE,y=0,y作为数据集的输出向量;S53:训练前,首先设置一个均值为0的随机分布初始化网络权重,训练时先将输入向量x送至DNN网络的输入层,进行前向传播,经过若干隐层后得到前向输出y';S54:计算y'与真实值y之间的误差,再从输出层开始将误差反向传播至第一个隐层,按照减小误差的方向调整网络的各个连接权值;S55:不断循环以上调整权值的过程,直到训练误差收敛到极小值,即得到符合要求的DNN网络权重。
[0013]进一步的,所述步骤S6具体包括:多线程读取ID对接表中的编号read ID,使用B+树索引分别从硬盘或虚拟内存中提取对应的编号read ID,并依次与基准测序片段reads进行匹配,将相似的测序片段reads与基准测序片段reads分别匹配并延伸,组成小型重叠群small contig。
[0014]进一步的,所述步骤S7具体包括:生成的线程标识表中前后存在线程重叠,其中包含了小型重叠群small contig的重叠信息,通过图论方法构建线程标识的前后关系,构建成一个多级多节的德布莱英图De Brujin Grapph线程路径,并按照该线程路径进行序列拼接,将小型重叠群small contig组装为重叠群contig。
[0015]进一步的,所述步骤S8包括以下子步骤:S81:提取每条重叠群contig碱基片段的特征;S82:对重叠群contig碱基片段的特征进行比较,将特征相同的对应的重叠群contig进行部位嵌合,遍历纠错;S83:输出最终组装框架序列scaffold。
[0016]一种基于基因数值化表达的二代从头组装系统,包括内存管理模块、测序片段reads对接模块、小型重叠群small contig组装模块、重叠群contig组装模块和框架序列scaffold组装模块,其中,所述内存管理模块用以实现碱基测序数据管理;所述测序片段reads对接模块用以基因解析碱基序列并自定义编号、计算每条测序片段reads两组特定长度的前后质心、通过每条测序片段reads的碱基序列和编号read ID构建B+树索引,应用人工智能算法获得前后质心值与碱基序列对齐本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于基因数值化表达的二代从头组装方法,其特征在于,包括如下步骤:S1:通过软磁盘阵列RAID实现碱基测序数据管理;S2:基因解析碱基序列并自定义编号;S3:计算每条测序片段reads两组特定长度的前后质心值;S4:通过每条测序片段reads的碱基序列和编号read ID构建B+树索引;S5:应用人工智能算法获得前后质心值与碱基序列对齐关系的匹配模型,或使用数值快速排列算法将质心值顺次排序,据此生成ID对接表并优化;S6:根据ID对接表多线程组装小型重叠群small contig,输出线程标识表、小型重叠群small contig片段及其编号和单核苷酸变异SNP信息表;S7:根据线程标识构建德布莱英图De Brujin Grapph并寻路,将小型重叠群small contig组装为重叠群contig;S8:基于重叠群contig组装框架序列scaffold。2.如权利要求1所述的一种基于基因数值化表达的二代从头组装方法,其特征在于,所述步骤S1具体包括:通过内置RAID卡或NFS协议,将磁盘中存储的碱基测序数据,以数据流形式陆续调入由高IOPS的硬盘组成的伪虚拟内存中,并且分散存储,所述碱基测序数据包括质心数据和基因文件。3.如权利要求1所述的一种基于基因数值化表达的二代从头组装方法,其特征在于,所述步骤S2具体包括:通过CPU从高随机读写能力固态硬盘中读取基因文件,得到多条基因测序片段reads,并对每条基因测序片段reads进行编号,得到随机编号ID,然后,通过CUDA流将基因测序片段reads和随机编号ID传输至GPU。4.如权利要求1所述的一种基于基因数值化表达的二代从头组装方法,其特征在于,所述步骤S3具体包括:通过GPU将碱基测序数据分别进行宏层标识,将每条测序片段reads前后分别去m和n个碱基,其中,m和n的数值不同,得到两组共四条拆分后的前后层片段,采取无监督机器学习分别将两组前层与后层序列表达为硬聚类计算的质心值。5. 如权利要求1所述的一种基于基因数值化表达的二代从头组装方法,其特征在于,所述步骤S4具体包括:在两组特定长度的前后质心值计算过后,将每条测序片段reads的碱基序列及其对应的编号read ID构建起B+树索引,以实现碱基序列的随机提取。6.如权利要求1所述的一种基于基因数值化表达的二代从头组装方法,其特征在于,所述步骤S5具体包括:在得到所有测序序列两组不同片段的前后质心值后,使用人工智能算法,将两条序列的两组前后层质心和序列长度作为输入向量,两条序列是否能匹配作为输出向量,应用深度学习神经网络DNN获得前后质心值与碱基序列对齐关系的匹配模型,据此生成高准确的ID对接表,或使用数值快排算法,将质心顺次排序,据此生成ID对接表。7.如权利要求6所述的一种基于基因数值化表达的二代从头组装方法,其特征在于,所述步骤S5的人工智能算法包括以下子步骤:S51:将两条序列的两组前后质心值及其序列长度变换至[

1,1]以内,作为数据集的输入向量x;S52:将两条序列使用KMP算法进行匹配对齐,若能对齐匹配,则返回TRUE,y...

【专利技术属性】
技术研发人员:李国良张也刘原驰吉祥宇彭德华陆嘉华陈建邦陈星霖章璐李美伊
申请(专利权)人:天津大学四川创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1