编码/解码方法、编码/解码器和存储方法、装置制造方法及图纸

技术编号:24505934 阅读:56 留言:0更新日期:2020-06-13 08:03
本公开涉及一种编码/解码方法、编码/解码器和存储方法、装置,涉及数据存储技术领域。该编码方法包括:根据第一二进制代码序列的第一位、第二二进制代码序列的第一位和参考符号,确定编码序列的第一位,参考符号为四种不同符号中的任一种;根据第一二进制代码序列的当前位、第二二进制代码序列的当前位和编码序列的前一位,确定编码序列的当前位,编码序列的当前位为除编码序列的第一位以外的其它位。本公开能够提高存储密度,并避免在编码序列中出现的高GC、高AT重复问题。

Encoding / decoding method, encoding / decoding and storage method, device

【技术实现步骤摘要】
【国外来华专利技术】编码/解码方法、编码/解码器和存储方法、装置相关申请的交叉引用本申请是以CN申请号为201711009900.2,申请日为2017年10月25日的申请为基础,并主张其优先权,该CN申请的公开内容在此作为整体引入本申请中。
本公开涉及数据存储
,特别涉及一种编码方法、解码方法、存储方法、编码器、解码器、存储装置以及计算机可读存储介质。
技术介绍
随着现代科技,尤其是互联网的发展,全球的数据呈现指数级攀升的态势。不断增长的数据量对存储技术提出越来越高的要求。传统的存储技术,如磁带以及光碟存储,因为存储密度和时间有限越来越无法满足当前的数据需求。近年来,发展起来的DNA存储技术为解决这些问题提供了一条新的途径。与传统的存储介质相比,以DNA作为存储介质进行信息存储具有存储时间长(可以到几千年以上,是现有磁带和光盘介质的百倍以上),存储密度高(达到109Gb/mm3,是有磁带和光盘介质的千万倍以上)以及存储安全性好等特点。相关技术主要有George Church和Goldman等人在2012年提出的将二进制0、1信息转码到本文档来自技高网...

【技术保护点】
一种编码方法,包括:/n将第一二进制代码序列和第二二进制代码序列编码为一条编码序列,所述第一二进制代码序列与所述第二二进制代码序列位数相同,所述编码序列由四种不同符号构成,/n其中,所述编码序列通过以下步骤获得:/n根据所述第一二进制代码序列的第一位、所述第二二进制代码序列的第一位和参考符号,确定所述编码序列的第一位,所述参考符号为所述四种不同符号中的任一种,/n根据所述第一二进制代码序列的当前位、所述第二二进制代码序列的当前位和所述编码序列的前一位,确定所述编码序列的当前位,所述编码序列的当前位为除所述编码序列的第一位以外的其它位。/n

【技术特征摘要】
【国外来华专利技术】20171025 CN 2017110099002一种编码方法,包括:
将第一二进制代码序列和第二二进制代码序列编码为一条编码序列,所述第一二进制代码序列与所述第二二进制代码序列位数相同,所述编码序列由四种不同符号构成,
其中,所述编码序列通过以下步骤获得:
根据所述第一二进制代码序列的第一位、所述第二二进制代码序列的第一位和参考符号,确定所述编码序列的第一位,所述参考符号为所述四种不同符号中的任一种,
根据所述第一二进制代码序列的当前位、所述第二二进制代码序列的当前位和所述编码序列的前一位,确定所述编码序列的当前位,所述编码序列的当前位为除所述编码序列的第一位以外的其它位。


根据权利要求1所述的编码方法,其中,确定所述编码序列的第一位包括:
根据所述第一二进制代码序列中的第一位,按照第一映射关系,确定所述编码序列的第一位的第一候选符号组,所述第一候选符号组包含所述四种不同符号中的两种;
根据所述第二二进制代码序列的第一位,以及所述参考符号,按照第二映射关系,确定所述编码序列的第一位的第二候选符号组,所述第二候选符号组包含所述四种不同符号中的两种,所述第一候选符号组与所述第二候选符号组具有一个相同的符号;
将所述相同的符号确定为所述编码序列的第一位。


根据权利要求1所述的编码方法,其中,确定所述编码序列的当前位包括:
根据所述第一二进制代码序列中的当前位,按照预设的第一映射关系,确定所述编码序列的当前位的第一候选符号组,所述第一候选符号组包含所述四种不同符号中的两种;
根据所述第二二进制代码序列的当前位,以及所述编码序列的前一位,按照预设的第二映射关系,确定所述编码序列的当前位的第二候选符号组,所述第二候选符号组包含所述四种不同符号中的两种,所述第一候选符号组与所述第二候选符号组具有一个相同的符号;
将所述相同的符号确定为所述编码序列的当前位。


根据权利要求1所述的编码方法,还包括:
将待编码的信息转码成二进制代码;
从所述二进制代码中提取所述第一二进制代码序列与所述第二二进制代码序列。


根据权利要求1-4任一项所述的编码方法,其中,
所述四种不同符号为腺嘌呤A、胞嘧啶C、鸟嘌呤G和胸腺嘧啶T四种脱氧核糖核苷酸,
所述编码序列为包含所述四种脱氧核糖核苷酸的核酸序列。


根据权利要求5所述的编码方法,其中,
所述第一映射关系为所述第一二进制代码序列中的第一位或当前位与所述第一候选符号组中的符号的对应关系,所述第一候选符号组中的符号为A、C、G、T中的两种,
所述第二映射关系为所述第二二进制代码序列中的第一位和所述参考符号与所述第二候选符号组中的符号的对应关系,或者所述第二二进制代码序列中的当前位和前一位与所述第二候选符号组中的符号的对应关系,所述第二候选符号组中的符号为A、C、G、T中的两种,并且所述第二候选符号组与所述第一候选符号组具有一个相同的符号。


一种存储方法,包括:
将根据权利要求5或6任一项所述的编码方法获得的核酸序列拆分为多个序列片段;
为各序列片段添加索引标识,所述索引标识中包含所述序列片段的位置顺序信息;
将所述各序列片段合成各核酸片段;
可选地,将所述各核酸片段存储在介质中,所述介质为存储管或细胞;
可选地,所述索引标识为脱氧核糖核酸序列;
可选地,在将所述各核酸片段存储在介质中之前,组装所述各核酸片段;
可选地,在将所述各核酸片段存储在介质中之前,将所述各核酸片段连接到载体中。


一种解码方法,包括:
将根据权利要求1-6任一项所述的编码方法生成的编码序列解码为第一二进制代码序列和第二二进制代码序列,
其中,所述第一二进制代码序列通过以下步骤获得:
按照权利要求2-6任一项所述的编码方法中的第一映射关系,将所述编码序列包含的四种不同符号中的两种解码为0,将所述四种不同符号中的另外两种解码为1,以获得所述第一二进制代码序列,
所述第二二进制代码序列通过以下步骤获得:
根据所述编码序列的第一位和参考符号,按照权利要求2-6任一项所述的编码方法中的第二映射关系,确定所述第二二进制代码的第一位,所述参考符号为所述四种不同符号中的任一种,
根据所述编码序列的当前位和前一位,按照所述第二映射关系,确定所述第二二进制代码的当前位,所述编码序列的当前位为除所述编码序列的第一位以外的其它位。


根据权利要求8所述的解码方法,其中,所述编码序列通过如下步骤获取:
对根据权利要求7所述的存储方法合成的各核酸片段进行测序,获得各序列片段;
根据所述各序列片段的索引标识,获取所述各序列片段的位置顺序信息;
根据所述位置顺序信息,将所述各序列片段组合为所述编码序列。


根据权利要求8所述的解码方法,其中,
所述四种不同符号为腺嘌呤A、胞嘧啶C、鸟嘌呤G和胸腺嘧啶T四种脱氧核糖核苷酸。


根据权利要求8-10任一项所述的解码方法,还包括:
将解码获取的二进制代码序列组合为二进制代码;
将所述二进制代码转码为相应的信息。


一种编码器,包括:
存储器,被配置为存储待编码的第一二进制代码序列和第二二进制代码序列,所述第一二进制代码序列与所述第二二进制代码序列位数相同;
处理器,所述处理器与所述存储器相连,所述处理器被配置为
将所述第一二进制代码序列和所述第二二进制代码序列编码为一条编码序列,所述编码序...

【专利技术属性】
技术研发人员:黄小罗陈世宏林涛陈泰沈玥徐讯尹烨杨焕明
申请(专利权)人:深圳华大生命科学研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1