一种优化中文存储的DNA存储编码方法技术

技术编号：25445905 阅读：59 留言：0更新日期：2020-08-28 22:32

本发明专利技术公开了一种优化中文存储的DNA存储编码方法，包括如下步骤：1）输入中文文本，根据包含字符种类和GB2312‑80标准，对一级汉字或一、二级汉字重新编码。2）统计文本中分词出现频率，将出现频率乘以分词长度，并对乘积进行排序，对排在前列分词进行编码。3）所有字符转换为二进制序列，进行霍夫曼编码压缩。4）转换为DNA序列，添加地址码和RS纠错码。5）解码过程为编码反向过程，首先进行纠错，然后序列拼接，将DNA序列转换为二进制序列。6）对二进制序列进行霍夫曼解码，并重新生成输入文件。本发明专利技术方法降低了中文文本的冗余度，提高了DNA存储编码压缩效果，获得了极高的中文编码潜力。

全部详细技术资料下载

【技术实现步骤摘要】
一种优化中文存储的DNA存储编码方法
本专利技术涉及一种一种优化中文存储的DNA存储编码方法,属于DNA存储

技术介绍
全球数据信息总量已达到30ZB,并将很快超过现有硬盘等存储介质的承受能力。DNA数据存储技术开辟了一种新的存储模式,其发展对于节省存储能源及推进大数据存储发展有着重要作用。DNA数据存储近年来逐渐成为全球研究的热点。包括哈佛大学、哥伦比亚大学、微软研究院、华盛顿大学和剑桥大学等国内外多家研究机构均展开对DNA存储的研究。单位质量的DNA约有1021个碱基,可存储455EB信息,此信息量为全球一年信息总量的1/4；单位体积的DNA可存储的信息为整个互联网的33倍。DNA单位体积的存储密度是硬盘和存储器的106倍,是闪存的103倍。DNA作为最稳定的储存设备之一,对于外部环境,如高温、震荡等具有极强的抗干扰能力。DNA存储编码模型的研究面临的困难是存储效率与合成难度、成本之间的矛盾。存储效率越高，合成难度越大，成本越高，甚至难以合成。目前相关研究均处于初级阶段，数据量较小，且主要是对英...

【技术保护点】
1.一种优化中文存储的DNA存储编码方法，包括如下步骤：/n1）将一级汉字按顺序重新编号为0至3754；/n2）输入待编码中文文本，根据文本包含的字符种类不同，包括以下两种字符编号方式：/n

【技术特征摘要】
1.一种优化中文存储的DNA存储编码方法，包括如下步骤：
1）将一级汉字按顺序重新编号为0至3754；
2）输入待编码中文文本，根据文本包含的字符种类不同，包括以下两种字符编号方式：

编号方式E1：统计其中出现的一级汉字以外的字符种类数，若不超过341种，文本中所有的一级汉字以外的N1种字符编号为3755至3755+N1-1，N1≤341，进入步骤3）；

编号方式E2：若一级汉字以外的字符种类数超过341种，将二级汉字按顺序重新编号为3755至6762，文本中所有的一级和二级汉字以外的N2种字符编号为6763至6763+N2-1，N2≤1429，进入步骤3）；
3）统计文本中分词的出现频率，每个分词包含的字符数目为2到4个;将每个分词的出现频率乘以分词的长度，并将乘积进行降序排列；

采用编号方式E1，选择乘积值最大的前341-N1（N1≤341）个分词，依次编号为3755+N1到4095；

采用编号方式E2，选择乘积值最大的前1429-N2（N2≤1429）个分词，依次编号为6763+N2到8191；
4）将文本中的所有字符转换为对应的数字编号，然后将数字转换为二进制序列，二进制数的位数根据步骤2）的编号方式确定；

采用编号方式E1，每...

【专利技术属性】
技术研发人员：毕昆，陆祖宏，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人