一种利用DNA进行信息存储的方法技术

技术编号:15640096 阅读:58 留言:0更新日期:2017-06-16 03:44
本发明专利技术涉及一种利用DNA进行信息存储的方法,其包括(1)将计算机原始文件二进制信息转化为四进制并进而编码转换成DNA全序列,其中二进制代码00、01、10、11分别对应转换为A、T、C、G四种脱氧核糖核苷酸;(2)将DNA全序列分成多个DNA片段,并组织构建长度为90‑110nt且包括由DNA片段构成的插入核苷酸编码序列、位于两端的侧翼引物序列以及位于各侧翼引物序列内侧的索引编码序列的输出DNA序列;(3)根据输出DNA序列合成人工DNA序列并保存。本发明专利技术方法具有通用性好,能够简化运算、提高DNA信息存储的连续性、存储效率和密度,以及可降低错误率和降低序列合成和检测成本等显著优势。

【技术实现步骤摘要】
一种利用DNA进行信息存储的方法
本专利技术属于信息存储
,具体涉及一种利用人工合成DNA进行信息存储的方法。
技术介绍
近年来,全球数字化信息正在经历爆炸性增长,预计到2017年,全球数字化保存的资料需求将超过16泽它字节(ZB,zettabytes),因此迫切需要开发出可靠的、用于大规模数字化信息管理的信息存储介质。然而,现有存储介质的容量并不能跟上数字化信息增长的速度。目前主要的存储介质是磁性和光学介质:磁性介质是目前市售的最密集的存储形式,磁带能存储高达185TB的数据,存储密度约10GB/mm3;最近还有研究报告了光盘存储1PB数据、约100GB/mm3的存储密度的可行性。尽管有种种改进,这些介质存储泽它字节的数据仍然需要数百万单位和大量物理空间。另外,存储密度只是信息存储的一个方面,耐久性也十分关键。目前,常规存储技术的耐久性十分有限,旋转盘的额定使用年限为3-5年,而磁带为10-30年,因此信息长期存储的解决方案仍需要擦除和更新损坏数据,以替换故障单元。综上,如果要保存全世界的数据,需要开发出具有更高存储密度和耐久性的存储介质。脱氧核糖核酸(deoxyribonucleicacid,DNA),又称去氧核糖核酸,是一种由脱氧核糖、磷酸以及四种碱基(腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)、鸟嘌呤(G))组成的生物大分子,其主要生物功能是生物信息存储。DNA可组成遗传指令从而引导生物发育与生命机能运作,这一过程是建构细胞内其他的化合物所必须的。自1988年第一次提出使用DNA存储信息以来,由于其高密度和长期稳定性(半衰期>500年),DNA被认为是一种极有前景的信息存储介质。DNA的数字化存储是指把数字化信息转化为DNA的碱基序列信息、存储于人工合成DNA的碱基序列之中,再用测序的方法读取其存储的信息,在计算机上最终完成DNA碱基序列到数字化信息的转换。DNA作为一种新型高延迟信息储存介质具有许多潜在的优点。比如,DNA存储密度十分大,在理论水平,DNA可以编码两个字节每个核苷酸(nt),或者455艾字节每克单链DNA;DNA稳定性强,可以在低温干燥和黑暗的条件下保存数万年;除了在非理想条件下的降解,DNA存储通常是可读的【1,2】。另外,不同于其他数字化存储介质,DNA存储不局限于在平面层间。1988年,JoeDavis在与来自哈佛的研究者们的一项合作研究中,首先提出将二进制码0和1的数字化信息以DNA碱基对的形式保存,并完成了35字节的DNA序列在E.coli基因中的存储。将这些数据组织成一个5×7矩阵,其中1对应于暗像素,0对应于亮像素,可将DNA信息恢复为古代日耳曼语字符的图片。2012年,GeorgeChurch的团队将DNA的不同碱基分别赋予二进制值(胞嘧啶(C)、腺嘌呤(A)为0,胸腺嘧啶(T)、鸟嘌呤(G)为1),通过微流体芯片合成了存储了96B数据的DNA。当需要对信息进行读取时,通过聚合酶链反应(PCR)扩增和测序获得碱基序列,并在电脑上对其进行信息恢复,将基因序列转换为二进制。并在DNA输出结构中加入了地址序列,很大程度的方便了信息读取的恢复【3】。2013年,在欧洲生物信息研究所(EuropeanBioinformaticsInstitutes,EBI),NickGoldman、EwanBirney和同事们使用Huffman三进制编码,将文件二进制码(0,1)翻译成三进制(0,1,2),然后按照DNA旋转编码方法,将三进制信息翻译成DNA的碱基信息(A、T、C、G),将碱基序列组织成四倍重叠步移的编码结构,使用153553条编码DNA来存储739KB的信息(其中包括154首莎士比亚十四行诗、一个科技论文的pdf文件、一张欧洲生物信息研究所的JPG格式图片、一段26秒的马丁路德金1963年“Ihaveadream”的演讲MP3音频和一段霍夫曼编码信息)【4】。CN105022935A公开了一种利用DNA进行信息存储的编码方法,其流程主要步骤是:首先,采用霍夫曼编码策略将文件的二进制序列转码为三进制序列,进而利用抗同聚物DNA编码策略编码为DNA序列,将上述得到的DNA序列采用四倍重叠步移打断得到DNA片段,将上述片段添加首部信息区和前后引物标签得到最后的DNA序列片段。然后,将上述得到的DNA片段通过DNA寡核苷酸链合成技术合成实物DNA片段,并将合成后的片段以干粉或溶液的形式储存;如果需要进行信息的拷贝,可以利用与引物接头反向互补的引物进行PCR扩增。最后,利用高通量测序解析DNA存储的信息,其中包含测序原始序列的校验,序列片段的拼接,拼接后DNA序列转码为三进制文件,三进制文件恢复为原始的二进制计算机信息等步骤。四倍重叠步移打断表示前后两个相邻的100bp的片段包含75bp的重叠,一个完整序列被打断后,除了前后100bp,其他位置都是在4个相邻片段中重复出现。该专利方法构建的用于DNA存储技术的编码方法与欧洲生物信息研究所的方法基本类似。上述方法采用二进制和三进制的数字化信息存储具有通用性,但基于二进制、三进制等编码方式的存储方法,信息压缩程度低、存储算法运算复杂,存储连续性差(旋转编码方式,信息写入后,写入位置后面的信息随之发生改变,造成存储不连续),且输出DNA的长度偏长、只有单个索引,DNA合成和信息恢复过程易出错,同时四倍重叠步移结构造成数据冗余,增加存储成本。编码序列较长,造成序列合成、测序和读取的难度较高,因此阻碍了它们的实际应用【5】。为克服以上问题,本申请人基于之前的研究提出一种新的人工合成DNA存储介质的信息存储读取方法(专利号:ZL201510138778.3),该法采用直接编码的DNA存储读取方式,使用一些数字化信息与碱基序列的索引表格和Unicode结合的方法,实现英文、中文、数字、标点符号到DNA碱基序列的转换,相比传统DNA存储技术有很大的改进,但该方法同样有较大的局限性,该方法在涉及中文等多语言信息的编码时,需要先进行Unicode序列转码,编码方式复杂、且产生的序列冗长,导致存储密度较低,同时增加了存储过程中DNA合成测序的成本。而且,该方法通用性较差,仅限于文本的存储,不能实现对图片、音频等的DNA存储、读取。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供一种改进的利用DNA进行信息存储的方法,该方法具有通用性好,能够简化运算,DNA信息存储的连续性好、存储效率和密度高,错误率低,以及序列合成和检测成本较低等显著优势。为实现上述目的,本专利技术采用的技术方案是:一种利用DNA进行信息存储的方法,其包括(1)将计算机中的原始文件信息转换为A、T、C、G四种脱氧核糖核苷酸表示的DNA全序列;(2)将步骤(1)所得DNA全序列打断分成多个DNA片段,然后分别将多个DNA片段进行组织构建获得多个输出DNA序列;(3)根据输出DNA序列合成相应的人工DNA序列并进行保存,特别是,步骤(1)中,读取原始文件信息的二进制信息,将其转换为四进制,并进而编码转换成DNA全序列,其中所述转换关系为:二进制代码00、01、10、11分别对应转换为A、T、C、G四种脱氧核糖核苷酸;步骤(2)中,各输出DNA序列包括由各DNA片段构成本文档来自技高网
...
一种利用DNA进行信息存储的方法

【技术保护点】
一种利用DNA进行信息存储的方法,其包括(1)将计算机中的原始文件信息转换为A、T、C、G四种脱氧核糖核苷酸表示的DNA全序列;(2)将步骤(1)所得DNA全序列打断分成多个DNA片段,然后分别将多个DNA片段进行组织构建获得多个输出DNA序列;(3)根据输出DNA序列合成相应的人工DNA序列并进行保存,其特征在于:步骤(1)中,读取原始文件信息的二进制信息,将其转换为四进制,并进而编码转换成DNA全序列,其中所述转换关系为:二进制代码00、01、10、11分别对应转换为A、T、C、G四种脱氧核糖核苷酸;步骤(2)中,各所述输出DNA序列包括由各所述DNA片段构成的插入核苷酸编码序列、分别位于所述插入核苷酸编码序列两端用于扩增和测序的侧翼引物序列以及位于各所述侧翼引物序列内侧用于指示信息恢复过程中数据块的位置的索引编码序列,所述输出DNA序列的长度为90‑110nt。

【技术特征摘要】
1.一种利用DNA进行信息存储的方法,其包括(1)将计算机中的原始文件信息转换为A、T、C、G四种脱氧核糖核苷酸表示的DNA全序列;(2)将步骤(1)所得DNA全序列打断分成多个DNA片段,然后分别将多个DNA片段进行组织构建获得多个输出DNA序列;(3)根据输出DNA序列合成相应的人工DNA序列并进行保存,其特征在于:步骤(1)中,读取原始文件信息的二进制信息,将其转换为四进制,并进而编码转换成DNA全序列,其中所述转换关系为:二进制代码00、01、10、11分别对应转换为A、T、C、G四种脱氧核糖核苷酸;步骤(2)中,各所述输出DNA序列包括由各所述DNA片段构成的插入核苷酸编码序列、分别位于所述插入核苷酸编码序列两端用于扩增和测序的侧翼引物序列以及位于各所述侧翼引物序列内侧用于指示信息恢复过程中数据块的位置的索引编码序列,所述输出DNA序列的长度为90-110nt。2.根据权利要求1所述的利用DNA进行信息存储的方法,其特征在于:步骤(2)中,所述输出DNA序列的长度为100nt。3.根据权利要求1或2所述的利用DNA进行信息存储的方法,其特征在于:步骤(2)中,各所述侧翼引物序列的长度为18-22nt,各所述索引编码序列长度为6-10nt。4.根据权利要求1所述的利用DNA进行信息存储的方法,其特征在于:当所述插入核苷酸编码序列、两侧翼引物序列、两索引编码序列的长度之和小于设定的输出DNA序列的长度时,在末端用随机序列补足。5.根据权利要求1所述的利用DNA进行信息存储的方法,其特征在于:步骤(2)中,按照同一设定序列长度对所述DNA全序列进行打断,且所述...

【专利技术属性】
技术研发人员:杨平蔡晓辉钟云鹏盛付旭李彦敏祁姗姗齐金才田净净朱沛煌
申请(专利权)人:苏州泓迅生物科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1