带有编码信息的人工合成DNA存储介质及信息的存储读取方法和应用技术

技术编号:11904955 阅读:84 留言:0更新日期:2015-08-19 17:55
本发明专利技术属于分子生物学领域,特别是属于DNA存储技术领域,更为具体的说是涉及带有特殊编码信息的人工合成DNA存储介质及信息的存储读取方法。抛弃现有技术中以成熟二进制码或者三进制码为依托的DNA存储技术,创造性地公开一种直接编码的DNA存储方式,利用这种直接编码的存储方法,特别是四联碱基编码,获得的存储有数字化信息的DNA链整体序列短、序列中鸟嘌呤、胞嘧啶平均含量相对平衡,有利于合成,方便解码而且可以降低错误率。并且可以覆盖英文、数字、中文和标点符号等多种字符类型,应用范围更广。

【技术实现步骤摘要】
人工合成DNA存储介质的信息存储读取方法
本专利技术属于分子生物学领域,特别是属于DNA存储
,更为具体的说是涉及带有编码信息的DNA存储介质及信息的存储读取方法。
技术介绍
进入21世纪以来,人类发展从工业化社会进入了信息化社会,信息技术和信息产业在经济和社会发展中的作用日益加强,信息产业在国民经济中的比重、信息技术在传统产业中的应用程度和信息基础设施建设水平不断提高。数字化信息已经大量应用于人们生活、工业和科研等领域,数字化信息存储技术也逐步随之发展。数据的存储技术需要一定的存储介质来作为存储的载体,比如软盘、光盘、硬盘、U盘、SD卡、SM卡、XD卡等。随着存储介质从软盘、光盘到SM卡、XD卡等的发展,人类的存储能力得到了极大的提高。然而随着经济的发展和社会的进步,人类社会的数字化信息呈现爆炸性的增长,存储能力的增加速度远不及数字化信息增长的速度,对人类存储和存档的能力是一个巨大的挑战,对信息存储介质的要求也不断提高。现有的存储介质占用空间大,不易保存,容易损坏等缺陷,在某种程度上已经无法满足目前信息化社会信息存储的爆炸性增长的需求,因此有必要开发出一种新型的存储介质。生命科学在21世纪的迅速发展,把人们对生命的认识提高到了一个新的高度。生命科学知识的积累和发展,以及生命科学与其他科学领域特别是信息科学的交叉发展,使得利用遗传物质脱氧核糖核酸来作为存储介质成为可能。脱氧核糖核苷酸,Deoxyribonucleicacid(DNA),是一种由脱氧核糖以及四种含氮碱基组成的双链结构(腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)、鸟嘌呤(G)),是遗传信息的载体,控制着生命的发育和延续以及生命机能的运作。DNA是自然界已知密度最大,最稳定的信息存储载体之一。DNA合成和测序技术的发展使其成为数字化信息存储载体提供了可能。DNA数字化存储指的是把数字化信息存储于DNA的碱基序列之中。此项技术利用寡核苷酸合成仪合成人工DNA来存储,利用DNA测序仪来读取所存储的信息。DNA作为储存介质,与现有的磁带或者硬盘存储系统相比具有如下优势,一是DNA的体积极小:一个碱基对只有几十个原子大小,以DNA作为存储介质,数据整体的体积将远远小于传统光盘与硬盘;二是DNA的密度大:人类基因组DNA总长度达到了30亿碱基对,却可以在直径只有几十微米的细胞中稳定存在。1克DNA不到指尖上一滴露珠大小,却能够储存700TB的数据,相当于1.4万张50GB容量的蓝光光盘,或233个3TB的硬盘(约151千克重);三是DNA稳定性极强,可以超长期保存。相比于其他需要低温、真空保存的存储介质,DNA可以在冷,干燥和黑暗的条件下保存数十万年。瑞士的ETHZurich大学在2015年2月报道通过使用Reed-Solomon错误纠正编码系统并利用硅玻璃介质通过Sol-gel化学技术封装DNA,研究者预测在-18℃。可以保存1百万年,在10℃。可以保存2000年,此项目中DNA合成的成本大约为$500/MB;四是存储技术的立体性,现有的存储技术例如CD存储是刻录在CD盘的平面上,而DNA存储在其厚度范围之内均可以存储,而不仅仅是表面,从而在一定的空间内大大增加了DNA存储的量;五是存储技术永恒性,因为DNA作为生物学通用的和最根本的存储体系,一直以来都是绝大多数生物体的遗传信息的载体,是永恒的,永远不会过时。六是DNA存储技术目前的成本可能比传统的磁带存储便宜。目前合成和解读DNA所存储的数字化信息虽然很贵,但是DNA的存储成本很便宜,所以对于那些需要存储几百上千年的信息而言,Goldman和Birney认为可能比传统的磁带存储更便宜。2012年8月,由GeorgeChurch和SriramKosuri领导的哈佛团队把DNA完全当做了数字硬盘,他们合成了一个可存储96比特数据的DNA链,具体存储方法是为腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)分别赋予二进制值(胸腺嘧啶和鸟嘌呤=1,腺嘌呤和胞嘧啶=0),随后通过微流体芯片对基因序列进行合成,从而使该序列的位置与相关数据集相匹配。当需要对数据进行读取时,只需再将基因序列还原为二进制即可。为了方便读取数据,研究人员还在每一个DNA片断的头部加入了19比特的地址块,用此记录其在原始文件中的位置,此项工作使DNA的存储密度提高了1000倍。2013年1月,欧洲生物信息研究所(EnropeanBioinformaticsInstitute(EBI))的NickGoldman博士领导的团队将154首莎士比亚的十四行诗共计5百万字节的文本和马丁路德金的”Ihaveadream”26秒的音频文件成功的存储、读取并复制,准确率在99.99%和100%之间。他们的方法流程如下,首先把电子文件的二进制码(0,1)翻译成三进制码(0,1,2);然后用由DNA四个碱基(分别以它们的学名首字母A、T、C、G代表)构成的一套特定编码和规则,将三进制码编译成一个DNA码序列。上述采用二进制码和三进制码的数字化信息存储具有通用性,任何数字化信息都可以编码成0和1的形式,他们是基于对0和1的直接编码方式,但是基于二进制码和三进制码的数字化信息存储系统编码序列较长,客观上增加了解码难度和错误率。
技术实现思路
本专利技术抛弃现有技术中以成熟二进制码或者三进制码为依托的DNA存储技术,创造性地公开一种直接编码的DNA存储方式,并相应的获得这种新的编码方式对应得到的DNA产品,同时将这一DNA产品应用于DNA的水印标记、加密标记领域。同时,本专利技术的另一目的是完成在这种编码技术下的加密标记功能、水印标记功能等。本专利技术公开了一种人工合成DNA存储介质的信息存储读取方法,所述DNA存储介质是由两条碱基互补的核苷酸数字化信息链组成,每条核苷酸数字化信息链包括至少N组数字化信息片段,每组数字化信息片段由4个碱基组成;每组数字化信息片段中的4个碱基中至少含有胞嘧啶或者鸟嘌呤中的一个;所述核苷酸数字化信息链的两端还设置有起始密码子和终止密码子;包括以下步骤:(1)如果数字化信息为中文,首先转换为其对应的Unicode,如果数字化信息为英文、数字和/或标点符号则直接进行下述步骤;(2)将由英文、数字和/或标点符号组成的数字化信息根据索引表格转换为碱基序列;(3)将步骤(2)中获得的碱基序列利用寡核苷酸合成仪合成人工DNA;从而完成了数字化信息的写入;当需要提取DNA存储介质上的信息时,通过下述步骤进行;(1’)将带有编码信息的DNA用DNA测序仪测出DNA序列;(2’)将测序仪测出的DNA序列对照索引表格转换为数字、英文和/或标点符号;(3’)如果转换出的数字和/或英文为Unicode序列,则根据Unicode规则将其转换为中文,从而获得中文、数字、英文和/或标点符号数字化信息;从而完成了数字化信息的提取。进一步,在步骤(2)转换形成的碱基序列的两端分别添加起始密码子和终止密码子。进一步,将起始密码子添加在对应的数字化信息的起始端,将终止密码子添加在对应的数字化信息的末端。本专利技术获得的存储有数字化信息的DNA链整体序列短、序列中鸟嘌呤、胞嘧啶平均含量相对平衡,有利于合成。并且可以覆盖英文、数字、中文和标点符号等多种字符类型,应用范本文档来自技高网
...

【技术保护点】
一种带有编码信息的人工合成DNA存储介质,其特征是,所述DNA存储介质是由两条碱基互补的核苷酸数字化信息链组成,所述每条核苷酸数字化信息链包括至少N组数字化信息片段,所述每组数字化信息片段由4个碱基组成。

【技术特征摘要】
1.一种人工合成DNA存储介质的信息存储读取方法,所述DNA存储介质是由两条碱基互补的核苷酸数字化信息链组成,每条核苷酸数字化信息链包括至少N组数字化信息片段,每组数字化信息片段由4个碱基组成;每组数字化信息片段中的4个碱基中至少含有胞嘧啶或者鸟嘌呤中的一个;所述核苷酸数字化信息链的两端还设置有起始密码子和终止密码子;其特征是,当需要完成数字化信息的写入时,包括以下步骤:(1)如果数字化信息为中文,首先转换为其对应的Unicode,再进行步骤(2);如果数字化信息为英文、数字和/或标点符号则直接进行步骤(2);(2)将由英文、数字和/或标点符号组成的数字化信息根据索引表格转换为碱基序列;(3)将...

【专利技术属性】
技术研发人员:杨平孙德斌柳伟强齐金才陈文柱刁文一唐四东
申请(专利权)人:苏州泓迅生物科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1