【技术实现步骤摘要】
一种优化中文存储的DNA存储编码方法
本专利技术涉及一种一种优化中文存储的DNA存储编码方法,属于DNA存储
技术介绍
全球数据信息总量已达到30ZB,并将很快超过现有硬盘等存储介质的承受能力。DNA数据存储技术开辟了一种新的存储模式,其发展对于节省存储能源及推进大数据存储发展有着重要作用。DNA数据存储近年来逐渐成为全球研究的热点。包括哈佛大学、哥伦比亚大学、微软研究院、华盛顿大学和剑桥大学等国内外多家研究机构均展开对DNA存储的研究。单位质量的DNA约有1021个碱基,可存储455EB信息,此信息量为全球一年信息总量的1/4;单位体积的DNA可存储的信息为整个互联网的33倍。DNA单位体积的存储密度是硬盘和存储器的106倍,是闪存的103倍。DNA作为最稳定的储存设备之一,对于外部环境,如高温、震荡等具有极强的抗干扰能力。DNA存储编码模型的研究面临的困难是存储效率与合成难度、成本之间的矛盾。存储效率越高,合成难度越大,成本越高,甚至难以合成。目前相关研究均处于初级阶段,数据量较小,且主要是对英 ...
【技术保护点】
1.一种优化中文存储的DNA存储编码方法,包括如下步骤:/n1)将一级汉字按顺序重新编号为0至3754;/n2) 输入待编码中文文本,根据文本包含的字符种类不同,包括以下两种字符编号方式:/n
【技术特征摘要】
1.一种优化中文存储的DNA存储编码方法,包括如下步骤:
1)将一级汉字按顺序重新编号为0至3754;
2)输入待编码中文文本,根据文本包含的字符种类不同,包括以下两种字符编号方式:
编号方式E1:统计其中出现的一级汉字以外的字符种类数,若不超过341种,文本中所有的一级汉字以外的N1种字符编号为3755至3755+N1-1,N1≤341,进入步骤3);
编号方式E2:若一级汉字以外的字符种类数超过341种,将二级汉字按顺序重新编号为3755至6762,文本中所有的一级和二级汉字以外的N2种字符编号为6763至6763+N2-1,N2≤1429,进入步骤3);
3)统计文本中分词的出现频率,每个分词包含的字符数目为2到4个;将每个分词的出现频率乘以分词的长度,并将乘积进行降序排列;
采用编号方式E1,选择乘积值最大的前341-N1(N1≤341)个分词,依次编号为3755+N1到4095;
采用编号方式E2,选择乘积值最大的前1429-N2(N2≤1429)个分词,依次编号为6763+N2到8191;
4)将文本中的所有字符转换为对应的数字编号,然后将数字转换为二进制序列,二进制数的位数根据步骤2)的编号方式确定;
采用编号方式E1,每...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。