当前位置: 首页 > 专利查询>盛司潼专利>正文

一种对基因序列片段进行拼接的系统和方法技术方案

技术编号:8191096 阅读:232 留言:0更新日期:2013-01-10 01:58
本发明专利技术涉及生物信息处理领域,提供了一种对基因序列片段进行拼接的系统,所述系统包括:数据库、过滤单元、拼接单元和处理单元;所述数据库用于存储基因序列片段;所述过滤单元用于对数据库中的基因序列片段中的短序列片段进行过滤,得长序列片段;所述拼接单元用于对长序列片段进行分段和拼接处理,得序列拼接图;所述处理单元用于对序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息。还提供了一种与对基因序列片段进行拼接的系统对应的方法。所述系统和方法能够提高序列片段拼接的准确度,从而为后续分析的准确性提供保障。

【技术实现步骤摘要】

本专利技术涉及生物信息处理领域,更具体地说,涉及ー种对基因序列片段进行拼接的系统和方法
技术介绍
对基因序列片段进行拼接是将小的序列片段进行比对合并成大的DNA序列或者RNA序列。这些序列片段是由A、G、C、T或者A、G、C、U组成,序列片段的长度表示其含有的A、G、C、T或者A、G、C、U的个数。含有A、G、C、T的序列片段经过拼接得到大的序列片段,大的序列片段再经过拼接或比对得到DNA序列;同样,含有A、G、C、U的序列片段经过拼接得到大的序列片段,大的序列片段再经过拼接或比对得到RNA序列。序列片段拼接就好比 一本书的多个副本通过粉碎机之后得到许多碎片,然后试图通过许多碎片拼凑出一本书的过程。结果拼凑书的过程中可能会出现很多重复的段落,并且段落中有拼凑错的地方。序列片段拼接过程中同样也存在错误,这就需要识别错误并校正错误。现有的ー种对基因序列片段进行拼接的方法。所述方法包括如下步骤步骤A、计算机储存DNA序列片段信息,其来自多个DNA序列片段;步骤B、用一个锚定序列检索序列片段信息,该锚定序列的长度为n,ー个序列片段至少被两个锚定序列检索;步骤C、根据所述的锚定序列对序列片段进行分组;步骤D、合并在ー组的序列片段,用来获得更长的序列片段;步骤E、利用来自ー个序列片段的至少两个锚定序列产生至少两个一致的序列。由于测序过程中或者测序信号识别过程中仪器、操作等会使序列片段存在错误,最終使得测序得到的DNA序列片段过短,同时该错误会导致通过拼接得到序列片段过短,也即该技术方案虽然能够实现序列片段的比对和拼接,但无法准确识别并去除错误信息,最終使得拼接后的序列不准确且冗余过多,降低了拼接后的序列用于后续分析的价值。因此需要ー种新的对序列片段进行拼接的系统和方法,能够提高序列片段拼接的准确度。
技术实现思路
本专利技术的目的在于提供ー种对基因序列片段进行拼接的系统和方法,g在解决现有技木通过拼接所得的序列过短,且无法准确识别并去除错误信息而导致拼接后的序列不准确且冗余过多的问题。为了实现专利技术目的,本专利技术提供了ー种对基因序列片段进行拼接的系统包括数据库、过滤単元、拼接单元和处理单元。其中,所述数据库用于存储基因序列片段;所述过滤単元用于对数据库中的基因序列片段中的短序列片段进行过滤,得长序列片段;所述拼接単元用于对长序列片段进行分段和拼接处理,得序列拼接图;所述处理単元用于对序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;所述处理単元中记录的信息包括对序列拼接图进行去除处理后的图的信息和图中被去除的信息。其中,所述过滤単元用于滤除长度小于L的基因序列片段;所述L >5,L为整数。其中,所述拼接単元包括分段模块、节点模块、拼接模块。所述分段模块用于将长序列片段转换成长度为K的锚定序列,所述K为正整数;所述节点模块用于根据锚定序列建立节点;每个锚定序列建立一个节点;所述拼接模块用于将节点连接成序列拼接图。其中,所述拼接模块用于连接节点,并对节点进行合并形成合并节点,捜索、连接合并节点形成序列拼接图。其中,所述姆个节点包括正向节点和/或反向节点;姆个节点的长度在3 20之间。其中,所述处理単元包括图处理模块、内图处理模块和记录模块。所述图处理模块用于对碱基个数小于M的序列拼接图进行去除处理;所述内图处理模块用于对去除处理后的序列拼接图中的环路中的一条路和分支进行去除处理;所述记录模块用于记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息;所述M > 6,R > 6,且M和R均为整数。 其中,所述系统还包括显示单元,用于显示处理单元得到的序列信息;所述序列信息包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数。其中,所述系统还包括输入单元,用于接收输入指令;所述输入指令包括长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。为了更好地实现本专利技术的目的,本专利技术还提供了ー种对基因序列片段进行拼接的方法,包括步骤:A、对基因序列片段中的短序列片段进行滤除,得长序列片段;B、对长序列片段进行分段和拼接处理,得序列拼接图;C、对所述序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;所述步骤C中记录得到的序列信息,包括对图进行去除处理后的序列拼接图的信息和序列拼接图中去除的信息。其中,所述步骤A中,滤除长度小于L的基因序列片段,得长度大于等于L的长序列片段;所述L >5,L为整数。其中,所述步骤B包括BI、将长序列片段转换成长度为K的锚定序列,所述K为正整数;B2、根据锚定序列建立节点;每个锚定序列建立一个节点;B3、将节点连接成序列拼接图。其中,所述步骤C包括Cl、去除碱基个数小于M的序列拼接图;C2、对去除处理后剰余的序列拼接图中的环路中的一条路和分支进行去除处理;C3、记录环路或环路中被去除的一条路和去除的分支中长度大于R的分支的序列信息;所述M彡6,R彡6,且M和R均为整数。其中,所述步骤C之后还包括步骤D、显示序列信息;所述序列信息包括拼接序列片段、每个拼接序列片段对应的长序列片段和每个长序列片段出现的次数。所述步骤A之前还包括步骤A0、获取并存储序基因列片段,并确定长序列片段的最小长度、长序列片段的分段长度和序列拼接图中的最少碱基个数。由上可知,本专利技术通过对短序列片段进行过滤,提高了參与序列拼接的基因序列片段的准确性,同时,对拼接后的序列拼接图的干扰因素进行去除处理并记录,不仅減少了冗余,也避免了信息的丢失。整体上实现了基因序列片段拼接的准确度。附图说明图I是本专利技术一个实施例中对基因序列片段进行拼接的系统结构示意图。图2是本专利技术另ー个实施例中拼接单元的结构示意图。图3是本专利技术一个实施例中序列拼接图和结果显示示意图。图4是本专利技术一个实施例中锚定序列建立的示意图。图5是本专利技术另ー个实施例中序列拼接图的示意图。图6是本专利技术另ー个实施例中节点合并处理的序列拼接图的示意图。图7是本专利技术另ー个实施例中序列拼接图。 图8是本专利技术一个实施例中对基因序列片段进行拼接的方法流程图。具体实现方式 为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一歩详细说明。本专利技术提出第一实施例。所述ー种对基因序列片段进行拼接的系统包括数据库、过滤单元、拼接单元和处理单元。如附图I所示(I)数据库I用于存储基因序列片段。(2)过滤单元2用于对数据库I中的基因序列片段中的短序列片段进行过滤,得长序列片段。(3)拼接单元3用于对长序列片段进行分段和拼接处理,得序列拼接图。(4)处理单元4用于对序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息。其中所述处理単元4中记录的信息包括但不限于对序列拼接图进行去除处理后的图的信息和图中被去除的信息。本实施例中的数据库I中存储的基因序列片段可以是人造基因序列片段或者是通过基因测序仪测序得到的基因序列片段。所述基因序列片段可以是DNA片段或RNA片段。在数据库中,DNA片段用含有A、G、C、T的一系列字符表示,RNA片段用含有A、G、C、U的一些列字符表示。本系统对DNA片段和对RNA片段的处理方式无任何区別。所述过滤単元2对数据库I中的基因序列片段中的短序列片本文档来自技高网
...

【技术保护点】
一种对基因序列片段进行拼接的系统,其特征在于,所述系统包括数据库、过滤单元、拼接单元和处理单元;所述数据库用于存储基因序列片段;所述过滤单元用于对数据库中的基因序列片段中的短序列片段进行过滤,得长序列片段;所述拼接单元用于对长序列片段进行分段和拼接处理,得序列拼接图;所述处理单元用于对序列拼接图及图中的干扰因素进行去除处理并记录,得到序列信息;所述处理单元中记录的信息包括对序列拼接图进行去除处理后的图的信息和图中被去除的信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:盛司潼
申请(专利权)人:盛司潼
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1