当前位置: 首页 > 专利查询>盛司潼专利>正文

一种对核酸序列信息进行匹配的方法技术

技术编号:12347940 阅读:70 留言:0更新日期:2015-11-18 19:52
本发明专利技术涉及信息处理领域,提供了一种对核酸序列信息进行匹配的方法,所述方法包括以下步骤:A、对数据库中的参考序列进行BWT变换,得匹配参考序列,并将匹配参考序列存储在数据库中;B、对数据库中的匹配参考序列进行间隔标记;C、将核酸序列片段依次分别与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。本发明专利技术的对核酸序列信息进行匹配的方法能实现核酸序列信息与参考序列的快速匹配。

【技术实现步骤摘要】
【专利说明】 本案为2012年07月08日申请的,申请号为201210263634. 7,专利技术名称为《一种 对核酸序列信息进行匹配的系统和方法》的分案申请。
本专利技术涉及信息处理领域,更具体地说,涉及一种对核酸序列信息进行匹配的系 统和方法。
技术介绍
美国科学家于1985年提出人类基因组计划,经过美国、英国、法兰西共和国、德 意志联邦共和国、日本和中国科学家的共同努力,于2000年完成了人类基因组"工作框架 图"。并于2001年公布了人类基因组图谱及初步分析结果。其研究内容还包括创建计算机 分析管理系统(也即通过计算机分析系统对测序的结果进行处理,得到核酸序列信息),检 验相关的伦理、法律及社会问题。在人类基因组图谱公布后,国内外开始积极投入到各个生 物种族的基因图谱绘制的工作中。利用核酸序列信息与已有的基因组图谱(参考序列)进行 比较,通过转录物组学和蛋白质组学等相关技术对基因表达谱、基因突变等进行匹配分析, 可获得与疾病相关基因的信息。通过核酸序列信息与基因组图谱进行匹配、分析,并揭秘患 病的根源,已成为生化医疗领域高度关注的问题,全球的基因测序技术也因此发展的如火 如荼,但要准确快速的从浩瀚的测序结果数据中得到基因信息,却成了当前基因测序技术 发展的瓶颈。 对核酸序列信息进行匹配的系统是利用计算机对测序所得的核酸序列片段在已 知的参考序列上进行匹配,也即一一比对,根据匹配的结果进行后续的分析。对核酸序列信 息进行匹配的方法是基于对核酸序列信息进行匹配的系统对核酸序列信息进行匹配的过 程。 现有技术中,,所述方法包括步骤:A、根据允 许错配的个数n,将每条核酸序列片段分成至少n+1条参与匹配的短片段,得短片段的数据 库;B、根据参与匹配的短片段的长度建立并存储参考序列索引,得数据库;C、把每条核酸 序列片段分段建立的短片段分别单独在数据库中进行匹配,得匹配结果。因为参考序列索 引是等长的,根据概率的原理,存在完全相同的多个参考序列索引。该技术方案中,每条参 与匹配的短片段依次与参考序列索引进行匹配,短片段需要与所有的参考序列索引分别进 行匹配(短片段需要分别与多个相同的参考序列索引进行匹配),这将大大降低信息处理的 速度。并且参考序列和核酸序列均需要进行分段处理,这将进一步增加了信息处理的工作 量,从而进一步降低了信息处理的速度。另外,参考序列建立的参考序列索引和核酸序列分 段建立的短片段,将产生大量的信息,这将增加信息处理装置的存储空间。 因此需要一种新的对核酸序列信息进行匹配的系统和方法,能够实现核酸序列与 参考序列快速匹配。
技术实现思路
本专利技术的目的在于提供一种对核酸序列信息进行匹配的系统和方法,旨在解决现 有技术核酸序列信息与参考序列进行匹配时,速度慢的问题。 为了实现专利技术目的,一种对核酸序列信息进行匹配的系统包括数据库、参考序列 变化单元、标记单元和匹配单元。所述数据库,用于存储参考序列;所述参考序列变换单元, 用于对数据库中的参考序列进行BWT变换,得匹配参考序列;所述标记单元,用于对数据库 中的匹配参考序列进行间隔标记;所述匹配单元,用于将核酸序列片段依次与数据库中的 匹配参考序列进行一致性匹配,得匹配核酸序列。 -致性匹配包括允许错配和不允许错配的情况。在允许N个错配的情况下,核酸 序列片段至多有N个碱基与数据库中的匹配参考序列不一致称为一致性匹配;在不允许错 配的情况下,核酸序列片段与数据库中的匹配参考序列完全一致称为一致性匹配。N为正整 数。 其中,所述参考序列变换单元包括参考序列矩阵模块和BWT矩阵模块。所述参考 序列矩阵模块,用于对在数据库中的参考序列末端或前端加上标识符,并将该参考序列循 环移动,得参考序列矩阵;所述BWT矩阵模块,用于将参考序列矩阵按照字典顺序排序,得 BWT参考序列矩阵。所述参考序列变换单元还可包括匹配参考序列模块,所述匹配参考序 列模块,用于获取BWT参考序列矩阵第一列与最后一列,得匹配参考序列,并储存在数据库 中。 其中,所述标记单元,用于对数据库中的匹配参考序列按照等差数列进行间隔标 记。 进一步的,所述标记单元,还用于在每个等差数列间隔中再利用等差数列对数据 库中的匹配参考序列进行进一步标记。 上述任一技术方案中,所述匹配单元,用于将核酸序列片段反向互补形成反向互 补核酸序列片段,并将反向互补核酸序列片段与数据库中的匹配参考序列进行一致性匹 配,得匹配核酸序列。 其中,所述匹配单元,利用回溯法依次在反向互补核酸序列片段不能匹配的位置 之前的位置上进行碱基替换,并从替换位置开始继续在数据库中进行匹配。 上述任一技术方案中,所述对核酸序列信息进行匹配的系统还包括信息接收单 元;所述信息接收单元,用于通过USB接口或光盘驱动接口或INTERNET获取核酸序列片段 和参考序列。 为了更好的实现本专利技术,本专利技术还包括。 所述方法包括步骤:A、对数据库中的参考序列进行BWT变换,得匹配参考序列,并 将匹配参考序列存储在数据库中;B、对将数据库中的匹配参考序列进行间隔标记;C、将核 酸序列片段依次分别与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。其中, 数据库中存储有参考序列,步骤A和步骤B分别数据库中的参考序列进行变换。 -致性匹配包括允许错配和不允许错配的情况。在允许N个错配的情况下,核酸 序列片段至多有N个碱基与数据库中的匹配参考序列不一致称为一致性匹配;在不允许错 配的情况下,核酸序列片段与数据库中的匹配参考序列完全一致称为一致性匹配。N为正整 数。 其中,所述步骤A包括:AU对数据库中的参考序列末端或前端加上标识符,并将 该参考序列经过循环移动,得参考序列矩阵;A2、将参考序列矩阵按照字典顺序排序,得 BWT参考序列矩阵,并存储在数据库中。在步骤A2之后还可包括步骤A3、获取BWT参考序 列矩阵第一列与最后一列,得匹配参考序列,并存储在数据库中。 其中,所述步骤B中,对数据库中的匹配参考序列按照等差数列进行间隔标记。 其中,所述步骤B中,在每个等差数列间隔中再利用等差数列对数据库中的匹配 参考序列进行进一步标记。 上述任一技术方案中,所述步骤C为,将核酸序列片段反向互补形成反向互补核 酸序列片段,然后将反向互补核酸序列片段与数据库中的匹配参考序列中进行一致性匹 配,得匹配核酸序列。 其中,所述步骤C中,在允许错配的情况下,利用回溯法依次在反向互补核酸序列 片段不能匹配的位置之前的位置上进行碱基替换,并从替换位置继续在数据库上进行匹 配。 由上可知,本专利技术通过核酸序列片段无需分段,直接与在数据库中进行匹配,同 时,核酸序列片段无需与所有相同的匹配参考序列一一匹配,只需与所有相同的序列进行 一次匹配即可,从而从整体上提高了信息处理的速度;另外,数据库中的参考序列无需建立 参考序列索引,且数据库中的匹配参考序列无需一一标记,从而大大降低了对系统的存储 空间的要求。【附图说明】 图1是本专利技术一个实施例中对核酸序列信息进行匹配的系统的结构示意图。 图2是本专利技术另一个实施例中对核酸序列信息进行匹配的系统的结构示意图。 图3是本专利技术一个实施例中参考序列变换单元的结构示意图。 图4是本专利技术另一个实施例中参考序列变换单元的结构示意图本文档来自技高网
...

【技术保护点】
一种对核酸序列信息进行匹配的方法,其特征在于,所述方法包括以下步骤:A、对数据库中的参考序列进行BWT变换,得匹配参考序列,并将匹配参考序列存储在数据库中;B、对数据库中的匹配参考序列进行间隔标记;C、将核酸序列片段依次分别与数据库中的匹配参考序列进行一致性匹配,得匹配核酸序列。

【技术特征摘要】

【专利技术属性】
技术研发人员:盛司潼
申请(专利权)人:盛司潼
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1