一种测序序列纠错方法、系统及设备技术方案

技术编号:2912606 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术适用于基因工程技术领域,提供了一种测序序列纠错方法、系统及设备,所述方法包括下述步骤:接收测序序列,根据预设的高频阀值构造高频短串表;遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。在本发明专利技术中,根据预设的高频阀值构造高频短串表,结合构建的高频短串表将各测序序列中非连续高频短串区域的序列恢复为连续高频短串区域的序列,提高后续对测序序列进行分析、处理的准确性。

【技术实现步骤摘要】

本专利技术属于基因工程
,尤其涉及一种测序序列纠错方法、系统及设备
技术介绍
基于现有的基因测序技术,碱基测错的可能性是存在的,碱基测错后对于后续的数据分析、短序列组装等都存在一定的影响,现有的纠错策略只是是简单的屏蔽掉低频的短串,删除含有一定比例低频短串的序列,实际上并没有进行有效的纠正,纠错效果很差。综上所述,现有测序序列纠错方法的纠错效果很差。
技术实现思路
本专利技术实施例的目的在于提供一种测序序列纠错方法,旨在解决现有测序序列纠错方法的纠错效果很差的问题。本专利技术实施例是这样实现的,一种测序序列纠错方法,所述方法包括下述步骤:接收测序序列,根据预设的高频阀值构造高频短串表;遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。-->本专利技术实施例的另一目的在于提供一种测序序列纠错系统,所述系统包括:高频短串统计单元,用于接收测序序列,根据预设的高频阀值本文档来自技高网...

【技术保护点】
一种测序序列纠错方法,其特征在于,所述方法包括下述步骤: 接收测序序列,根据预设的高频阀值构造高频短串表; 遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域; 根据相应接收到的测序序列和 所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列; 根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。

【技术特征摘要】
1、一种测序序列纠错方法,其特征在于,所述方法包括下述步骤:接收测序序列,根据预设的高频阀值构造高频短串表;遍历接收到的各测序序列,结合所述高频短串表在各测序序列上查找连续为高频短串最多的区域;根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列;根据构造的所述左序列和/或右序列,以及查找到的所述区域还原相应测序序列。2、如权利要求1所述的方法,其特征在于,所述接收测序序列,根据预设的高频阀值构造高频短串表的步骤具体为:接收测序序列,将接收到的各测序序列逐个碱基切割成预设长度的短串;将切割得到的且出现次数超过预设高频阀值的短串添加到所述高频短串表。3、如权利要求2所述的方法,其特征在于,所述预设的高频阀值根据切割成的预设长度的短串的频率分布确定,所述预设长度为17个碱基长度。4、如权利要求1所述的方法,其特征在于,所述根据相应接收到的测序序列和所述高频短串表,在查找到的所述区域左侧和/或右侧构造全是高频短串的左序列和/或右序列的步骤具体为:从相应测序序列的第s1个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为s1的左侧树;遍历所述左侧树,找到一条全是高频短串的路径,根据所述路径从叶子节点向上构造全是高频短串的左序列;从相应测序序列的第s2个碱基开始取n-1长度的序列作为树的根节点,以A、C、G、T四种碱基为各节点的叶子构造一棵深度为ln-(s2-1)的右侧树;遍历所述右侧树,找到一条全是高频短串的路径,根据所述路径从根节点向下构造全是高频短串的右序列;其中,s1、s2分别为查找到的所述连续为高频短串最多的区域的起始碱基、结束碱基距离相应测序序列首个碱基的数目,n为所述高频短串的碱基长度,ln为相应测序序列的碱基长度。5、如权利要求1所述的方法,其特征在于,所述接收到的测序序列的长度小于等于200碱基长度。6、一种测序序列纠错系统...

【专利技术属性】
技术研发人员:石仲斌李瑞强朱红梅阮珏李胜霆王俊杨焕明汪建
申请(专利权)人:深圳华大基因研究院
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1