一种中短基因片段测序的分析拼接方法及设备技术

技术编号：12168472 阅读：221 留言：0更新日期：2015-10-08 02:43

本发明专利技术提供一种中短基因片段测序的分析拼接方法及设备，方法包括：校验read序列，去除包含错误和不可靠信息的基因序列；读取处理后的read数据，分析数据并构建k-mer结构和四叉树结构；构建拼接存储表，记录拼接过程的进展情况和当前参与拼接的read信息；选取初始k-mer开始拼接后，根据拼接打分公式不断选取后继k-mer并实时更新拼接存储表结构中的信息，得到contig序列；利用read-pair信息，基于最长公共子序列的方法合并contig序列，生成并输出super-contig；针对以上拼接方法对性能的特殊要求，本发明专利技术设备为嵌入式手持结构；利用本发明专利技术中的方法及设备，可以快速、准确的实现中短基因片段测序的分析与拼接。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及生物基因测序
，特别设及一种中短基因片段测序的分析拼接方法及设备。
技术介绍
近年来，生物基因测序技术迅猛发展，虽然基因测序的精度提高，时间缩短，成本降低，但是基因测序过程中需要处理的数据量增大。因此借助计算机技术分析、处理海量数据并高效的完成基因片段拼接是基因测序的一个关键环节。早期的Sanger第一代测序技术得到的测序片段（简称read)的主要特征是；read 较长巧00~lOOObp)，read数量相对的较少，read之间的相互重叠关系易于发现，因此可 W采用基于重叠图的贪婪算法进行拼接。对于第二代和第S代测序技术而言，read的长度只有30~50bp，read的数量更多，基于重叠图的拼接方法不再适用。目前常见的解决办法是采用基于de化uUn图的算法，通过寻找加权图上的最优路径进行拼接。但是该种算法需要消耗大量的时间和内存来构建de化uUn图并且容错率较低，拼接性能无法满足要求。
技术实现思路
为了克服上述现有技术的缺点，本专利技术的目的在于提供一种中短基因片段测序的分析拼接方法及设备，基于四叉树捜索方法，通过构建特殊的数据结构W及有效的拼接策略提高拼接性能，并采用最长公共子序列（LC巧方法比较两个序列的相似性，利用 read-pair信息组装contig生成super-contig，本专利技术相应的设备可采用可视化手持嵌入式系统装置。为了实现上述目的，本专利技术采用的技术方案是：一种中短基因片段测序的分析拼接方法，包括如下步骤： (1)、对read进行预处理操作，去掉包含错误和不可靠信息的...

【技术保护点】
一种中短基因片段测序的分析拼接方法，其特征在于，包括如下步骤：(1)、对read进行预处理操作，去掉包含错误和不可靠信息的基因序列；(2)、读取步骤(1)中处理后的read数据，分析数据并构建k‑mer结构和四叉树结构；(3)、构建拼接存储表，记录拼接过程的进展情况和当前参与拼接的read信息；(4)、选取初始k‑mer开始拼接后，根据拼接打分公式不断选取后继k‑mer并实时更新拼接存储表结构中的信息，得到contig序列；(5)、利用read‑pair信息，基于最长公共子序列的方法合并contig序列，生成并输出super‑contig。

【技术特征摘要】

【专利技术属性】
技术研发人员：韩九强，李严桵，钟德星，刘俊，张新曼，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人