当前位置: 首页 > 专利查询>深圳大学专利>正文

一种DNA序列数据压缩系统技术方案

技术编号:5995528 阅读:369 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种DNA序列数据压缩系统,是一种基于MA-ARV码本的DNA序列数据无损压缩系统,可在全序列上搜索MA-ARV码矢量的近似重复片段,并使用文化基因启发式优化算法(MA)对压缩码本的构造过程进行优化,从而更全面地利用DNA序列数据的重复特性,有效消除冗余。

【技术实现步骤摘要】

本专利技术涉及数据压缩领域,特别涉及一种基于文化基因近似重复矢量模型的DNA 序列数据无损压缩系统。
技术介绍
DNA是物种细胞内用于存储遗传指令信息的双链状聚合物,是生物生存、延续与发 展的重要物质基础。DNA序列数据是DNA物质在生物信息学(Bioinformatics)上的抽象 模型,包含了完整的遗传信息,具有重要的科研价值与社会意义。为获得各种生物的遗传信 息,各种DNA测序工程陆续展开,产生了海量的DNA序列数据,为现有数据存储与传输资源 带来巨大压力。因而需要对DNA序列数据进行压缩处理。目前学术界尚未完全了解DNA内 包含的所有信息,故只能使用无损的压缩编码方法。另一方面,由于DNA序列具有独特的生 物数据特点,传统的通用压缩算法无法对其进行有效编码,从而催生了专门针对DNA序列 数据的压缩方法。现有较为典型的DNA序列数据压缩方法为BioCompress-2系统。BioCompress-2 是首个具有实用意义的DNA序列数据压缩系统,也是后续改进系统的基础。DNA 序列具有由 A (Adenine,腺嘌呤)、T (Thymine,胸腺嘧啶)、C (Cytosine,胞 嘧啶)、G (Guanine,鸟嘌呤)四种碱基符号构成一维长字符串的数据形式。若不考虑其生 物学含义,可视作普通文本数据进行压缩编码。在BioCompress-2中,引入通用的LZ压缩 算法对输入数据进行编码处理。LZ算法可有效消除一般文本数据中的冗余。但DNA序列具 有特殊数据构成,仅使用LZ算法对其进行压缩常常会导致编码后数据量反而有所增加。为 解决这一问题,BioCompress-2系统引入对比编码前后数据量的处理方法。仅当使用LZ算 法压缩后数据体积实际有所减小时,才对输入的DNA序列数据进行编码操作,否则将维持 数据原状。此外,BioCompress-2系统在压缩编码时,不仅搜索直接重复的片段,也同样寻 找最长的回文重复序列(Palindrome)。通过使用滑动窗范围内的直接重复模型与回文重 复模型概括输入数据中的冗余信息,BioCompress-2算法可有效提升在DNA序列上的压缩 性能。BioCompress-2系统及以其为基础的改进DNA序列数据压缩系统,常包含三个主 要缺陷第一,系统仅使用直接重复模型与回文重复模型描述DNA序列的冗余,并不足以涵盖 序列数据的所有特点。从而在压缩时,仍有很大部分的重复片段因其模式未被考虑而无法 进行编码处理。影响了压缩效果。第二,BioCompress-2系统在匹配时仅考虑了精确重复的数据。而DNA序列 来源于生物细胞内的实际遗传物质,其在复制、杂交及演化过程中会出现大量的碱基符号 变异(Mutation)与损坏(Damage)。因此DNA序列中的重复更多地以近似重复的形式存 在。压缩系统仅对精确重复片段进行搜索,将遗漏大量近似重复的数据冗余。第三,使用LZ算法进行压缩编码时,其搜索范围仅为滑动窗缓冲区内的部分序列。而源于生物实际物质的DNA序列数据与普通的文本数据有所不同,其大规模重复更可 能出现于相距较远的位置,超越了一般LZ算法滑动窗的覆盖范围。从而在搜索时,LZ算法 仅能找到小规模的片段重复,导致其编码后数据量往往反而有所膨胀。这也在很大程度上 限制了 BioCompress-2系统的压缩性能。因此,现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足,本专利技术的目的在于提供一种DNA序列数据压缩系统, 旨在解决现有技术中所存在的问题。本专利技术的技术方案如下一种DNA序列数据压缩系统,其中,所述DNA序列数据压缩系统包括 MA-ARV码本设计模块,用于构造针对当前输入DNA序列数据的压缩码本; DNA序列数据压缩模块,用于根据MA-ARV码本对输入数据进行无损压缩编码; DNA序列数据解压模块,用于对压缩后的数据文件进行解压恢复操作。所述的DNA序列数据压缩系统,其中,所述DNA序列数据压缩系统还包括输入模 块、检测模块和输出模块;所述输入模块、检测模块、DNA序列数据压缩模块与输出模块依次相连,所述检测模块 还分别与MA-ARV码本设计模块、DNA序列数据解压模块相连,所述MA-ARV码本设计模块与 DNA序列数据压缩模块相连。所述的DNA序列数据压缩系统,其中,所述MA-ARV码本设计模块将当前输入DNA 序列数据表示为MA-ARV矢量^其直接重复模式冗余片段表示为相同矢量^镜像重复片段为矢量一;根据碱基配对原则,对于配对重复片段有矢量/,对于反转重复片段有矢量-1* V O所述的DNA序列数据压缩系统,其中,所述DNA序列数据压缩系统在压缩数据时, 使用编码格式为[id, repeat type, {et/ii error}},其中ii/为对应MA-ARV码矢量编号, repeat ipe为重复模式,et/ii error为编辑误差信息序列。所述的DNA序列数据压缩系统,其中,所述编辑误差信息序列用{offset, edit type, symbol}的格式进行编码;其中为编辑操作碱基的位置,ei/iiij^e为操作类 型符号A表示替换、々表示删除、/表示插入,SJT^W为操作的碱基符号。一种DNA序列数据压缩方法,其中,包括以下步骤 S100、数据输入;S200、检测输入的数据是否为原始DNA序列数据,如果是,执行S300,如果否,执行 S400 ;S300、检测输入的数据是否包含MA-ARV码本,如果是,执行S311,如果否,执行S321 ;5311、进入DNA序列数据压缩模块,根据MA-ARV码本对输入数据进行无损压缩编码;5312、最后输出压缩后的DNA序列数据;S321、进入MA-ARV码本设计模块,构造针对当前输入DNA序列数据的压缩码本,然后执 行 S311 ;S400、进入DNA序列数据解压模块,对压缩后的数据文件进行解压恢复操作;S4lo、最后输出解压恢复的原始I)NA序列数据。 有益效果本专利技术提出的一种基于MA—ARV码本的I)NA序列数据无损压缩系统,可在全序列上搜索MA—ARV码矢量的近似重复片段,并使用文化基因启发式优化算法(MA)对压缩码本的构造过程进行优化,从而更全面地利用I)NA序列数据的重复特性,有效消除冗余,提升整体压缩率。附图说明 图l为I)NA序列中的直接重复模式的示意图。 图2为I)NA序列中的镜像重复模式的示意图。 图3为I)NA序列中的配对重复模式的示意图。 图4为I)NA序列中的反转重复模式的示意图。 图5为MA—ARV矢量模型旷的示意图。 图6为MA—ARV矢量模型旷的直接重复模式旷的示意图。 图7为MA—ARV矢量模型旷的镜像重复模式旷一/的示意图。 图8为MA—ARV矢量模型旷的配对重复模式旷*的示意图。 图9为MA—ARV矢量模型旷的反转重复模式旷“的示意图。 图lo为MA—ARV中的编辑误差编码的示意图。 图11为I)NA序列数据压缩系统的系统框图。 图12为基于MA—ARV的])NA序列数据压缩系统流程图。 图13为基于字典的I)NA序列数据压缩编码图。具体实施方式 与普通文本字符串相比,I)NA序列数据具有以下三个主要显著特点第一,I)NA序列数据本文档来自技高网
...

【技术保护点】
一种DNA序列数据压缩系统,其特征在于,所述DNA序列数据压缩系统包括:MA-ARV码本设计模块,用于构造针对当前输入DNA序列数据的压缩码本;DNA序列数据压缩模块,用于根据MA-ARV码本对输入数据进行无损压缩编码;DNA序列数据解压模块,用于对压缩后的数据文件进行解压恢复操作。

【技术特征摘要】

【专利技术属性】
技术研发人员:纪震周家锐朱泽轩储颖
申请(专利权)人:深圳大学
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1