一种中短基因片段测序的分析拼接方法及设备技术

技术编号:12168472 阅读:221 留言:0更新日期:2015-10-08 02:43
本发明专利技术提供一种中短基因片段测序的分析拼接方法及设备,方法包括:校验read序列,去除包含错误和不可靠信息的基因序列;读取处理后的read数据,分析数据并构建k-mer结构和四叉树结构;构建拼接存储表,记录拼接过程的进展情况和当前参与拼接的read信息;选取初始k-mer开始拼接后,根据拼接打分公式不断选取后继k-mer并实时更新拼接存储表结构中的信息,得到contig序列;利用read-pair信息,基于最长公共子序列的方法合并contig序列,生成并输出super-contig;针对以上拼接方法对性能的特殊要求,本发明专利技术设备为嵌入式手持结构;利用本发明专利技术中的方法及设备,可以快速、准确的实现中短基因片段测序的分析与拼接。

【技术实现步骤摘要】

本专利技术设及生物基因测序
,特别设及一种中短基因片段测序的分析拼接 方法及设备。
技术介绍
近年来,生物基因测序技术迅猛发展,虽然基因测序的精度提高,时间缩短,成本 降低,但是基因测序过程中需要处理的数据量增大。因此借助计算机技术分析、处理海量数 据并高效的完成基因片段拼接是基因测序的一个关键环节。 早期的Sanger第一代测序技术得到的测序片段(简称read)的主要特征是;read 较长巧00~lOOObp),read数量相对的较少,read之间的相互重叠关系易于发现,因此可 W采用基于重叠图的贪婪算法进行拼接。对于第二代和第S代测序技术而言,read的长度 只有30~50bp,read的数量更多,基于重叠图的拼接方法不再适用。目前常见的解决办法 是采用基于de化uUn图的算法,通过寻找加权图上的最优路径进行拼接。但是该种算法 需要消耗大量的时间和内存来构建de化uUn图并且容错率较低,拼接性能无法满足要求。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种中短基因片段测序 的分析拼接方法及设备,基于四叉树捜索方法,通过构建特殊的数据结构W及有效的拼 接策略提高拼接性能,并采用最长公共子序列(LC巧方法比较两个序列的相似性,利用 read-pair信息组装contig生成super-contig,本专利技术相应的设备可采用可视化手持嵌入 式系统装置。 为了实现上述目的,本专利技术采用的技术方案是: 一种中短基因片段测序的分析拼接方法,包括如下步骤: (1)、对read进行预处理操作,去掉包含错误和不可靠信息的基因序列; (2)、读取步骤(1)中处理后的read数据,分析数据并构建k-mer结构和四叉树结 构; 做、构建拼接存储表,记录拼接过程的进展情况和当前参与拼接的read信息; (4)、选取初始k-mer开始拼接后,根据拼接打分公式不断选取后继k-mer并实时 更新拼接存储表结构中的信息,得到contig序列; 巧)、利用read-pair信息,基于最长公共子序列的方法合并contig序列,生成并 输出super-contigo[001引所述步骤(1)中去掉的基因序列包括泡含未能识别的碱基N的片段和A碱基含 量超过90%的片段。 所述步骤(2)具体包括: 1)将read打断成长度为8的基因序列,建立k-mer数组结构; 2)初始化四叉树结构,底层采用hash表存储,通过k-mer碱基序列散列化后的值 实现寻址; 3)遍历四叉树,再次读取read数据,记录每个k-mer对应read的信息。 所述步骤(2)中k-mer结构包含W下信息:[001引 1)k-mer碱基压缩后的整数值; 2)k-mer在所有read中出现的次数; 3)k-mer在read中出现的位置W及该read的编号。 所述步骤(2)中分析数据的过程中扫描read数据两次,采用动态分配内存的方法 构建k-mer结构,在第一遍扫描输入的过程中获取k-mer结构所需要存储空间的信息,在第 二遍扫描输入的过程中,分配空间并且填入每个k-mer及其所在read的信息用于后续的拼 接。[002引所述步骤似中构建四叉树结构时,将一个k-mer作为四叉树的父节点,四个子节 点分别是后k-1个碱基补上A/C/G/T得到的k-mer。 所述步骤(3)中拼接存储表包含W下信息: 1)唯一标识一条read的字段; 2)该条read参与拼接的方向; 3)该条read参与拼接的初始位置; 4)当前k-mer出现在read中的位置;[002引 5)拼接中断发生的位置; 6)删除标识:如果一个在决策表中的read在后继的多个碱基位上参与拼接失败, 设置该标识,表示该条read参与拼接失败,当指定超时完成时,从决策表中删除设置了删 除标识的read信息; 7)拼接状态标记。[003U所述步骤(4)中k-mer的选取遵循W下规则: 选取在所有read中出现次数最多的k-mer作为拼接的初始k-mer,当前k-mer的 后k-1个碱基分别接上A/G/C/T就是四个候选后继k-mer,选取得分最高的候选后继k-mer 作为当前k-mer的后继k-mer,k-mer在第i条read的得分按下式计算; 其中k是k-mer在第i条read中出现的位置;L是read的长度;K是k-mer长度; 是不大于(L+D/2的最大整数; k-mer的总得分按下式计算; 其中;score;是k-mer在第i条read的得分;numi是第i条read参与拼接的次 数;n是包含该k-mer的read数量。[003引所述步骤巧)中利用第一代测序技术确定下来的read-pair信息获取待测片段 中距离已知的两条read,当配对的两条read出现在不同的contig中时,根据read-pair 信息确定contig之间的相对位置,去除重复片段合并contig,过程中采用最长公共子序列 (LC巧方法比较两个序列的相似性,定义长度分别为M,N的基因序列X,Y之间的相似性函数f狂,Y)如下; 其中min(M,脚表示M,N中的较小值,LLCS狂,Y)表示X,Y间的最长公共子序列的 长度,计算化CS〇(,Y)采用一种基于动态规划的递归方法,递归式如下所示:是序列Xi和Y斯一个LCS的长度,Xi是基因序列X的前i个碱基组 成的子序列,Yj.是基因序列Y的前j个碱基组成的子序列,通过回溯Wc为元素组成 的矩阵C可W快速得到Xi和Yj.的一个LCS,矩阵C中最大的元素即最长公共子序列的长度 化CS狂,Y)。 本专利技术还提供了一种实现所述中短基因片段测序的分析拼接方法的设备,采用客 户端-服务器硬件模型,其中本地客户端仅实现拼接过程及结果显示,数据的处理全部传 输到服务器上进行,借助高性能的服务器实现基因拼接过程中数据的高速传输和海量数据 的不间断处理。既可W提高拼接速度,还可W增强稳定性和可靠性,避免断电、客户端死机 等异常情况对计算任务的影响。 设备硬件包括; 金属外壳1; 与金属外壳相连的液晶显示屏2 ; 与金属外壳相连的电源开关3、工作指示灯4和电源显示灯5; 金属外壳内部安装的实现数据快速读取的固态硬盘EMMC存储器6、双通道DDR3内 存7和基于ARM Cortex-a9架构的四核处理器8 ; 为整个装置提供稳定电源的S5M8767电源管理单元9;用于传输数据的USB数据模块10 ; 连接220V充电设备的电源输入接口 11 ; 数据输入/输出接口 12。 其中工作指示灯亮时表示设备已通电并正在工作中,电源显示灯为绿色代表电源 充足,红色表示电源不足,需连接充电设备进行充电。接口 11可W连接220V充电设备给本 装置充电,并通过S5M8767电源管理单元9为整个装置提供稳定电源。通过输入/输出接 口 12传输read数据文件,经USB数据模块10传入嵌入式系统进行分析拼接处理。 与现有技术相比,利用本专利技术中提出的拼接方法与设备实现中短基因片段拼接测 序的准确度可W达到97%,每处理1000个碱基数据仅占用1.化内存,与现有技术相比,降 低了内存消耗。【附图说明】 图1是本专利技术中的中短基因片段测序分析拼接方法的总体流程图。 图2是本专利技术中的中短基因片段测序分析拼接方本文档来自技高网...

【技术保护点】
一种中短基因片段测序的分析拼接方法,其特征在于,包括如下步骤:(1)、对read进行预处理操作,去掉包含错误和不可靠信息的基因序列;(2)、读取步骤(1)中处理后的read数据,分析数据并构建k‑mer结构和四叉树结构;(3)、构建拼接存储表,记录拼接过程的进展情况和当前参与拼接的read信息;(4)、选取初始k‑mer开始拼接后,根据拼接打分公式不断选取后继k‑mer并实时更新拼接存储表结构中的信息,得到contig序列;(5)、利用read‑pair信息,基于最长公共子序列的方法合并contig序列,生成并输出super‑contig。

【技术特征摘要】

【专利技术属性】
技术研发人员:韩九强李严桵钟德星刘俊张新曼
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1