一种将基因信息进行二进制表示的存储方法技术

技术编号:13832046 阅读:241 留言:0更新日期:2016-10-14 11:23
本发明专利技术公开了一种将基因信息进行二进制表示的存储方法,所述的方法包括:根据DNA双链结构及碱基配对,由字符代表匹配的碱基对;将四种碱基对进行数值定义并用两位二进制数来表示;三个碱基对组成的碱基组以6位二进制数值和2位固定赋值组成一个8位一字节的二进制数值表示;以线性映射的方式,将64种碱基组0~63根据Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数,以二进制字节流形式的数据信息进行存储。

【技术实现步骤摘要】

本专利技术涉及生物信息领域,涉及基因检测后数据存储的处理技术,是一种将基因信息进行二进制表示的存储方法
技术介绍
高通量基因测序技术的成熟与普及,使得基因检测的成本也逐渐降低,测序时间更快,而随着最新的更高通量、更快、成本更低的基因测序技术的研发与商业化,基因测序业已走进个人基因检测的商业化模式。然而,基因检测所得的数据是海量的,在测序输出的数据存储格式上,一般以SAM(Sequence Alignment Map)/BAM(Binary Alignment Map)格式存储能够紧凑的表示出核苷酸序列。这种传统格式存储不但占用巨大的存储空间,而且不利于对基因数据进行进一步的分析(如人工智能的数据挖掘)。
技术实现思路
本专利技术的目的在于提供一种基因测序后数据信息的二进制表示的存储方法;通过把生物基因的四种碱基对(A,T,G,C)转换成二进制形式。在缩小了存储空间的同时能更加便捷的读取分析基因信息。为解决上述问题,本专利技术提供以下技术方案:DNA(Deoxyribonucleic acid),即脱氧核糖核酸,是一种分子,双链双螺旋结构,由脱氧核糖核苷酸(成分为:脱氧核糖、磷酸及四种含氮碱基)组成。可组成遗传指令,引导生物发育与生命机能运作,带有遗传信息的DNA片段称为基因。脱氧核苷酸是基因的基本结构和功能单位,决定生物的多样性的就是脱氧核苷酸中四种碱基:腺嘌呤(adenine,缩写为A)、胸腺嘧啶(thymine,缩写为T)、胞嘧啶(cytosine,缩写为C)和鸟嘌呤(guanine,缩写为G)的排列顺序不同。基因测序得到四种碱基排列顺序的数据信息,将四种碱基排列顺序以二进制形式表示并进行存储,从而减少存储空间的使用, 也方便读取分析基因信息,为基因信息的大数据挖掘、人工智能数据分析创造良好的应用基础。一种基因信息的二进制存储方法,其特征在于,所述的方法包括:根据DNA双链结构及碱基配对,由字符代表匹配的碱基对;将四种碱基对进行数值定义并用两位二进制数来表示;三个碱基对组成的碱基组以6位二进制数值和2位固定赋值组成一个8位一字节的二进制数值表示;以线性映射的方式,将64种碱基组0~63根据Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数,以二进制字节流形式的数据信息进行存储。作为本专利技术的进一步技术方案:由字符代表匹配的碱基对,根据碱基的固定配对,由字符A,T,G,C组成的字符文件,其中每一个字符代表一个碱基对,转换方式如下所示:A:A=T;T:T=A;G:G=C;C:C=G。作为本专利技术的进一步技术方案:将四种碱基对进行数值定义并用两位二进制数来表示,A、T、G、C四种碱基对,利用计算机二进制方法,分别用2位的二进制数值来表示,可以有24种组合的表示方法,举例1中组合如下:A=00、T=01、G=10、C=11。作为本专利技术的进一步技术方案:碱基组的8位二进制数值表示方法,三个碱基对组成的碱基组以6位二进制数值和2位固定赋值组成一个8位一字节的二进制数值来表示;2位的固定赋值可以用00、01、10、11作为固定值来填充表示;以高位固定赋值是11,由碱基对A、T、G组合成的碱基组其两位二进制数表示分别是00、01、10为例,由碱基对A、T、G组成的碱基组的二进制表示为:ATG=11000110。作为本专利技术的进一步技术方案:以线性映射的方式,将64种碱基组进行 数值映射并转换成8位二进制数值,根据线性映射的方式,将赋值之后的64种碱基组0~63根据Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数;通过该赋值与映射的方式,每一个碱基组即可得到一个固定的8位二进制数,所有碱基组组合在一起便形成二进制字节流,得到与基因信息两位代表转换法转换之后同样形式的字节流。与现有技术相比,本专利技术的有益效果是:本专利技术通过把生物基因的四种碱基对(A,T,G,C)转换成二进制形式。在缩小了存储空间的同时能更加便捷的读取分析基因信息。附图说明图1是字符与碱基对对应转换关系图。具体实施方式下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。参见说明书附图1,本专利技术提供一种技术方案:DNA(Deoxyribonucleic acid),即脱氧核糖核酸,是一种分子,双链双螺旋结构,由脱氧核糖核苷酸(成分为:脱氧核糖、磷酸及四种含氮碱基)组成。可组成遗传指令,引导生物发育与生命机能运作,带有遗传信息的DNA片段称为基因。脱氧核苷酸是基因的基本结构和功能单位,决定生物的多样性的就是脱氧核苷酸中四种碱基:腺嘌呤(adenine,缩写为A)、胸腺嘧啶(thymine,缩写为T)、胞嘧啶(cytosine,缩写为C)和鸟嘌呤(guanine,缩写为G)的排列顺序不同。基因测序得到四种碱基排列顺序的数据信息,将四种碱基排列顺序以二进制形式表示并进行存储,从而减少存储空间的使用, 也方便读取分析基因信息,为基因信息的大数据挖掘、人工智能数据分析创造良好的应用基础。在DNA双链结构中,碱基的互补配对是固定的,A=T、G=C,所以,由字符A,T,G,C组成的字符文件,其中每一个字符代表一个碱基对,转换方式如下所示:A:A=T;T:T=A;G:G=C;C:C=G碱基对示例:T A C G A A C T G C T AA T G C T T G A C G A T如上所示,双链上的两个互补配对的碱基称为一个碱基对,如A=T、T=A、G=C、C=G等,三个相邻的碱基对编成一组碱基组。可以利用计算机二进制方法,对每一个碱基对进行数值定义并用两位二进制数来表示。所有二进制组合如下表:DNA上每三个相邻碱基对编成一组命名为碱基组,当碱基组位于基因上时,每个碱基组对应一个密码子以及氨基酸。碱基组通过两位代表法转换之后生成了一个6位的二进制数值,并且可以将这个6位数据存储到一个字节(8位)的高位或低位,剩余的2位数值可用00,01,10,11作为固定值来填充。以高位固定赋值是11,由三个碱基对A、T、G组合成的碱基组其两位二进制数表示分别是00、01、10为例,因此由三个碱基对A、T、G组成的碱基组的二进制表示为ATG=11000110。每个碱基组都是可以用一个8位二进制数(一个字节)来表示。当所有碱基组都使用二进制数表示之后,即得到一个新的由二进制数字节流表示的基因信息,再利用字节流图像表示的方式便可得到一个基因信息转化而成的可视化图像,通过这种方式可以对基因进行更加直观的研究与分析,并且在存储上节省了大量的存储空间。每个碱基组由三个碱基对组成,碱基对共有四种组合,所以每个碱基组有4^3=64种组合方式。对基因的64种碱基组进行重新编码,将64种碱基组赋予0-63的编号,然后通过线性映射或可选阀值映射的方式映射到0~255的范围,从而得到一个新的字节流。碱基组编号如下表所示:碱基组 编码 碱基组 编码 碱基组 编码 碱基组 编码 本文档来自技高网...

【技术保护点】
一种将基因信息进行二进制表示的存储方法,其特征在于,所述的方法包括:根据DNA双链结构及碱基配对,由字符代表匹配的碱基对;将四种碱基对进行数值定义并用两位二进制数来表示;三个碱基对组成的碱基组以6位二进制数值和2位固定赋值组成一个8位一字节的二进制数值表示;以线性映射的方式,将64种碱基组0~63根据Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数,以二进制字节流形式的数据信息进行存储。

【技术特征摘要】
1.一种将基因信息进行二进制表示的存储方法,其特征在于,所述的方法包括:根据DNA双链结构及碱基配对,由字符代表匹配的碱基对;将四种碱基对进行数值定义并用两位二进制数来表示;三个碱基对组成的碱基组以6位二进制数值和2位固定赋值组成一个8位一字节的二进制数值表示;以线性映射的方式,将64种碱基组0~63根据Y=4X、或Y=4X+1、或Y=4X+2、或Y=4X+3的公式均匀映射到0~255中,并将0~255所有数值转换为8位二进制数,以二进制字节流形式的数据信息进行存储。2.根据权利要求1所述的一种将基因信息进行二进制表示的存储方法,由字符代表匹配的碱基对,其特征在于:根据碱基的固定配对,由字符A,T,G,C组成的字符文件,其中每一个字符代表一个碱基对,转换方式如下所示:A:A=T;T:T=A;G:G=C;C:C=G。3.根据权利要求1所述的一种基因信息的二进制存储方法,将四种碱基对进行数值定义并用两位二进制数来表示,其特征在于:A、T、G、C四种碱基对,利用计算机二进制方法,分别用2位的二进制数值来表示,可以有24种组合的表示方法,举例1中组合如下:...

【专利技术属性】
技术研发人员:谢清禄徐宏锴朱军余孟春
申请(专利权)人:广州麦仑信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1