一种序列自动拼接方法及装置制造方法及图纸

技术编号:15823007 阅读:48 留言:0更新日期:2017-07-15 05:07
本发明专利技术公开了一种序列自动拼接方法及装置,该方法包括以下步骤:S1:获取测序样本并对其进行预处理,所述测序样本包括多个测序数据序列;S2:计算每个测序数据序列的长度,选择长度最长的测序数据序列并记为起始序列;S3:从其余测序数据序列中选择一个并记为待拼接序列;S4:将所述起始序列与所述待拼接序列进行比对;S5:当该起始序列与所述待拼接序列存在长度大于预设值M的公共子串时,则将该起始序列与该待拼接序列进行拼接并得到一拼接序列,并将该拼接序列记为新的起始序列;S6:判断是否还有测序数据序列未拼接,若是,则依次执行S3、S4和S5;若否,则执行S7;S7:生成测序结果文件。本发明专利技术大大提高了拼接结果的准确性。

【技术实现步骤摘要】
一种序列自动拼接方法及装置
本专利技术涉及生物的DNA序列,尤其涉及序列拼接的方法及装置。
技术介绍
一般来说,序列拼接过程通常可分为如下几个阶段:1、重叠阶段,在该阶段每一个片段和其他的片段进行比对可以找出重叠部分;2、布局阶段,将所有的片段组合成一个近似的多重比对;3、一致阶段,确定最终的完整序列。当序列片段的数量较大时,计算所有序列组合的重叠部分将会带来计算上的瓶颈,所以就需要更加高效的计算方法。另外,由于重复序列的误配很大可能会对拼接结果造成干扰;另外,测序数据本身的错误信号、以及拼接起始片的选择都会对拼接结果造成误差。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种序列自动拼接方法,其能够解决现有技术中由于各种因素导致的拼接误差。本专利技术的目的之一采用以下技术方案实现:本专利技术提供了一种序列自动拼接方法,包括以下步骤:S1:获取测序样本并对其进行预处理,所述测序样本包括多个测序数据序列;S2:计算每个测序数据序列的长度,选择长度最长的测序数据序列并记为起始序列;S3:从其余测序数据序列中选择一个并记为待拼接序列;S4:将起始序列与待拼接序列进行比对;本文档来自技高网...
一种序列自动拼接方法及装置

【技术保护点】
一种序列自动拼接方法,其特征在于,包括以下步骤:S1:获取测序样本并对其进行预处理,所述测序样本包括多个测序数据序列;S2:计算每个测序数据序列的长度,选择长度最长的测序数据序列并记为起始序列;S3:从其余测序数据序列中选择一个并记为待拼接序列;S4:将起始序列与待拼接序列进行比对;S5:当该起始序列与该待拼接序列存在长度大于预设值M的公共子串时,则将该起始序列与该待拼接序列进行拼接并得到一拼接序列,并将该拼接序列记为新的起始序列;S6:判断是否还有测序数据序列未拼接,若是,则依次执行S3、S4以及S5;若否,则执行S7;S7:生成测序结果文件。

【技术特征摘要】
1.一种序列自动拼接方法,其特征在于,包括以下步骤:S1:获取测序样本并对其进行预处理,所述测序样本包括多个测序数据序列;S2:计算每个测序数据序列的长度,选择长度最长的测序数据序列并记为起始序列;S3:从其余测序数据序列中选择一个并记为待拼接序列;S4:将起始序列与待拼接序列进行比对;S5:当该起始序列与该待拼接序列存在长度大于预设值M的公共子串时,则将该起始序列与该待拼接序列进行拼接并得到一拼接序列,并将该拼接序列记为新的起始序列;S6:判断是否还有测序数据序列未拼接,若是,则依次执行S3、S4以及S5;若否,则执行S7;S7:生成测序结果文件。2.如权利要求1所述序列自动拼接方法,其特征在于,所述预设值M=20。3.如权利要求1所述序列自动拼接方法,其特征在于,所述S4具体为将起始序列与待拼接序列的正向序列、反向序列、互补序列以及反向互补序列依次进行比对。4.如权利要求1所述序列自动拼接方法,其特征在于,所述预处理具体包括根据系统预设的信号强度阈值将每个测序数据序列的低置信度区域去除,以及对酒精峰的识别判定。5.一种序列自动拼接装置,其特征在于,包括:预处理模...

【专利技术属性】
技术研发人员:段广有金亮徐凤丹廖国娟葛毅
申请(专利权)人:苏州金唯智生物科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1