当前位置: 首页 > 专利查询>东南大学专利>正文

一种优化中文存储的DNA存储编码方法技术

技术编号:25445905 阅读:59 留言:0更新日期:2020-08-28 22:32
本发明专利技术公开了一种优化中文存储的DNA存储编码方法,包括如下步骤:1)输入中文文本,根据包含字符种类和GB2312‑80标准,对一级汉字或一、二级汉字重新编码。2)统计文本中分词出现频率,将出现频率乘以分词长度,并对乘积进行排序,对排在前列分词进行编码。3)所有字符转换为二进制序列,进行霍夫曼编码压缩。4)转换为DNA序列,添加地址码和RS纠错码。5)解码过程为编码反向过程,首先进行纠错,然后序列拼接,将DNA序列转换为二进制序列。6)对二进制序列进行霍夫曼解码,并重新生成输入文件。本发明专利技术方法降低了中文文本的冗余度,提高了DNA存储编码压缩效果,获得了极高的中文编码潜力。

【技术实现步骤摘要】
一种优化中文存储的DNA存储编码方法
本专利技术涉及一种一种优化中文存储的DNA存储编码方法,属于DNA存储

技术介绍
全球数据信息总量已达到30ZB,并将很快超过现有硬盘等存储介质的承受能力。DNA数据存储技术开辟了一种新的存储模式,其发展对于节省存储能源及推进大数据存储发展有着重要作用。DNA数据存储近年来逐渐成为全球研究的热点。包括哈佛大学、哥伦比亚大学、微软研究院、华盛顿大学和剑桥大学等国内外多家研究机构均展开对DNA存储的研究。单位质量的DNA约有1021个碱基,可存储455EB信息,此信息量为全球一年信息总量的1/4;单位体积的DNA可存储的信息为整个互联网的33倍。DNA单位体积的存储密度是硬盘和存储器的106倍,是闪存的103倍。DNA作为最稳定的储存设备之一,对于外部环境,如高温、震荡等具有极强的抗干扰能力。DNA存储编码模型的研究面临的困难是存储效率与合成难度、成本之间的矛盾。存储效率越高,合成难度越大,成本越高,甚至难以合成。目前相关研究均处于初级阶段,数据量较小,且主要是对英文文本、视频、图像等本文档来自技高网...

【技术保护点】
1.一种优化中文存储的DNA存储编码方法,包括如下步骤:/n1)将一级汉字按顺序重新编号为0至3754;/n2) 输入待编码中文文本,根据文本包含的字符种类不同,包括以下两种字符编号方式:/n

【技术特征摘要】
1.一种优化中文存储的DNA存储编码方法,包括如下步骤:
1)将一级汉字按顺序重新编号为0至3754;
2)输入待编码中文文本,根据文本包含的字符种类不同,包括以下两种字符编号方式:

编号方式E1:统计其中出现的一级汉字以外的字符种类数,若不超过341种,文本中所有的一级汉字以外的N1种字符编号为3755至3755+N1-1,N1≤341,进入步骤3);

编号方式E2:若一级汉字以外的字符种类数超过341种,将二级汉字按顺序重新编号为3755至6762,文本中所有的一级和二级汉字以外的N2种字符编号为6763至6763+N2-1,N2≤1429,进入步骤3);
3)统计文本中分词的出现频率,每个分词包含的字符数目为2到4个;将每个分词的出现频率乘以分词的长度,并将乘积进行降序排列;

采用编号方式E1,选择乘积值最大的前341-N1(N1≤341)个分词,依次编号为3755+N1到4095;

采用编号方式E2,选择乘积值最大的前1429-N2(N2≤1429)个分词,依次编号为6763+N2到8191;
4)将文本中的所有字符转换为对应的数字编号,然后将数字转换为二进制序列,二进制数的位数根据步骤2)的编号方式确定;

采用编号方式E1,每...

【专利技术属性】
技术研发人员:毕昆陆祖宏
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1