当前位置: 首页 > 专利查询>任兆瑞专利>正文

一种DNA存储双重编码方法、设备及可读存储介质技术

技术编号:35216705 阅读:10 留言:0更新日期:2022-10-15 10:32
本发明专利技术公开了一种DNA存储双重编码方法、设备及可读存储介质,属于生物与信息技术领域。双重编码方法首先构建包含双重编码DNA码字的字典,将二进制信息按照m字符长度进行分段,使用纠错码生成一定比例的相同长度冗余序列;将标尺数字按照每m个阿拉伯数字进行分段后,使用所定义双重编码字段双重编码分段字符与分段阿拉伯数字,并在生成DNA序列添加一定碱基长度的纠错码和引物,最后对生成DNA序列进行合成与测序。本发明专利技术方法同时解决了单碱基信息密度和地址索引的问题,将单组DNA的容量提高到超过实际应用的需求,并让地址索引信息的维护变得极其简单方便,赋予码字纠错能力,可以大大提高容错率,降低DNA合成成本。降低DNA合成成本。降低DNA合成成本。

【技术实现步骤摘要】
一种DNA存储双重编码方法、设备及可读存储介质


[0001]本专利技术涉及一种DNA存储双重编码方法、设备及可读存储介质,属于生物技术与信息


技术介绍

[0002]DNA存储是指使用DNA当作介质来存储信息数据。DNA分子极其稳定,不需要额外消耗能量维护,在低温干燥的环境下能够保存百万年之久,并且极其微小(单个碱基加上磷酸核糖骨架,合计仅三四十个原子),存储密度极高。理论上一克DNA可以保存人类迄今为止拍摄的所有电影,或者人类有史以来的所有书籍和绘画等资料信息。这两个优点远远超过目前所有的其它信息存储介质,如纸张、光盘、磁盘、磁带等。DNA分子不会依赖于特定的读取设备,这点也不同于目前的电子设备,比如三十年前最流行的软盘,由于读取设备不再生产使得数据的读取非常麻烦。但DNA是地球几乎所有生物的遗传物质,无论未来科技如何发展,人类总会有各种方法读取DNA数据,仪器设备如何改变都不会影响对DNA序列信息的读取。作为存储介质,DNA的缺点是不能任意修改数据,读写时间慢,成本很高。尽管如此,使用DNA来长期备份保存档案资料等惰性信息,即很少被使用却很重要的高价值数据信息资料,依然具有广阔的前景。
[0003]DNA存储的一个重要研究方向是编码方法,即如何将二进制的数字信息数据转换成DNA序列,除了要尽可能地提高信息密度以外,还需要解决以下四个问题:第一,序列限制,即DNA序列的GC含量要合理,一般为40%到60%,并且单碱基重复序列尽可能少;第二,每一个DNA分子的地址索引问题,即能够编码足够多的地址索引;第三,序列在合成测序时产生随机错误后如何纠错;第四,部分序列丢失如何冗余恢复。目前有多种研究按照不同的思路解决这些问题,出现了多种相关的编码方法,但这些编码方法仍然存在一些缺陷,主要包括地址索引数量不足导致单组DNA的容量有限,地址索引信息需要记录并维护,信息密度和容错率较低,解码阶段计算复杂度高等。

技术实现思路

[0004]专利技术要解决的技术问题
[0005]本专利技术针对现有DNA编码存储方法在数据序列转换、DNA容量、容错率方面存在的问题,提出一种DNA存储双重编码方法、设备及可读存储介质。
[0006]技术方案
[0007]为达到上述目的,本专利技术提供的技术方案为:
[0008]一种DNA存储双重编码方法,包括如下步骤:
[0009]步骤1,字典定义:定义n碱基长度的DNA码字字典,每个DNA码字双重编码一个字符和一个阿拉伯数字,字典内DNA码字满足:码字中G与C碱基含量位于40%到60%之间,字典内编码相同阿拉伯数字的任意两码字间汉明距离≥2;
[0010]步骤2,信息分段:将待存储二进制信息按照m个字符长度进行分段;
[0011]步骤3,生成冗余分段:按照一定的冗余比例为一组分段后的信息生成若干冗余分段,冗余分段的长度为与步骤2信息分段长度相同,冗余分段的每个字符由该组内所有信息分段对应相同位置字符根据纠错码生成规则生成,冗余分段与原信息分段的相同位置字符共同组成一个基本纠错单元;
[0012]步骤4,将标尺数字按照m个阿拉伯数字长度进行分段;
[0013]步骤5,根据步骤1所定义字典,使用DNA码字双重编码步骤2、3所生成的分段字符和步骤4生成的分段阿拉伯数字;
[0014]步骤6,添加纠错码:将步骤5生成的DNA序列添加一定碱基长度的纠错码;
[0015]步骤7,添加两端引物:在步骤6所得DNA序列首尾两端各添加一定碱基长度的引物;
[0016]步骤8,DNA合成与测序:将步骤7所获得的DNA序列进行合成,并对DNA片段进行测序。
[0017]进一步地,步骤1中DNA码字碱基长度n≤20。
[0018]进一步地,步骤3中冗余分段生成所依据的纠错码为里德所罗门码、RS纠删码、RS纠错码。
[0019]进一步地,步骤4中标尺数字为正规数、近似正规数及其派生数。
[0020]进一步地,步骤6中纠错码为RS纠删码,RS纠错码,汉明码和校验码,纠错码能够结合码字自身的检错机制来纠正一个或多个碱基错误。
[0021]一种DNA存储双重编码设备,包括:
[0022]存储器,用于存储计算机程序;
[0023]处理器,用于执行所述计算机程序时实现上述DNA存储双重编码方法的步骤。
[0024]一种计算机可读存储介质,该介质上存储有计算机程序,计算机程序被处理器执行时实现上述DNA存储双重编码方法的步骤。
[0025]有益效果
[0026]本专利技术DNA存储双重编码方法同时解决了单碱基信息密度和地址索引的问题,将单组DNA的容量提高到超过实际应用的需求,并让地址索引信息的维护变得极其简单方便,赋予码字纠错能力,可以大大提高容错率,对DNA合成降低成本的技术升级将会具有重要的指导意义。
附图说明
[0027]图1为本专利技术DNA存储双重编码方法的步骤图。
具体实施方式
[0028]为进一步了解本专利技术的内容,结合附图和具体实施方式对本专利技术作详细描述。
[0029]字典生成:DNA码字指固定长度的一小段DNA序列,如7碱基,8碱基,10碱基,14碱基等,这里以8碱基为例阐述本专利技术。DNA碱基有A/C/G/T四种,8碱基序列合计有48个,共计超过6万多种不同序列。去除序列GC含量不符合40%到60%的码字,主要包含重复序列,如AAAAAAAA;以及GC含量不均匀的序列,如ATTAATTA(GC含量为0%)。然后将选择出的合格码字分为10个小组,每个小组任意两个码字的汉明距离至少为2。
[0030]为了简单方便地说明,这里直接选择其中两类由不同碱基组合的码字,这两类码字分别含有1A

2C

2G

3T,如AGCTTCTG;以及2A

1C

3G

2T,如GATGGACT,上述两类码字中每个码字的GC含量均为50%,且单个碱基的数量均没有超过3,因此在码字内部最多能够出现连续3个碱基的重复。并且这两类的所有码字中,任意挑选两个码字相比较,序列的8个位置中至少有2个位置的碱基不同,也就是汉明距离至少为2。这样设置的优点在于,当一个码字的任何单个碱基出现突变错误后,能够根据码字的碱基组成直接判断出错误的无效码字。
[0031]根据排列组合公式,可以通过简单的计算得出,这两类码字的不同序列数量分别都是1680个(8*7*6*5*4/2/2)。从两类码字其中各选取1280个,组成合计2560个成员的码字库。将两类码字任意各分为5个小组,每小组256个码字,共10个小组,分别称为第0组,1组,2组,

,9组,每个码字分别编码一个8比特二进制序列,256个二进制序列(00000000到11111111)中的每一个字符都有10个码字来编码,这10个码字分别属于上面的第0组到9组中的一组。换种说法,256本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种DNA存储双重编码方法,其特征在于,包括如下步骤:步骤S1,字典定义:定义n碱基长度的DNA码字字典,每个DNA码字双重编码一个字符和一个阿拉伯数字,字典内DNA码字满足:码字中G与C碱基含量位于40%到60%之间,字典内编码相同阿拉伯数字的任意两码字间汉明距离≥2;步骤S2,信息分段:将待存储二进制信息按照m个字符长度进行分段;步骤S3,生成冗余分段:按照一定的冗余比例为一组分段后的信息生成若干冗余分段,冗余分段的长度为与步骤S2信息分段长度相同,冗余分段的每个字符由该组内所有信息分段对应相同位置字符根据纠错码生成规则生成,冗余分段与原信息分段的相同位置字符共同组成一个基本纠错单元;步骤S4,将标尺数字按照m个阿拉伯数字长度进行分段;步骤S5,根据步骤S1所定义字典,使用DNA码字双重编码步骤S2、S3所生成的分段字符和步骤S4生成的分段阿拉伯数字;步骤S6,添加纠错码:将步骤S5生成的DNA序列添加一定碱基长度的纠错码;步骤S7,添加两端引物:在步骤S6所得DNA序列首尾两端各添加一定碱基长度的引物;步骤S8,DNA合成与测序:将步骤S7所获得的DNA序列进...

【专利技术属性】
技术研发人员:任兆瑞
申请(专利权)人:任兆瑞
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1