当前位置: 首页 > 专利查询>天津大学专利>正文

基于DNA的信息存储方法技术

技术编号:20567021 阅读:49 留言:0更新日期:2019-03-14 09:38
本发明专利技术涉及信息存储技术领域,尤其涉及基于DNA的信息存储方法。本发明专利技术提供了长序列体内DNA信息存储技术。主要目标是中长DNA序列(1Kbp以上),以LDPC码和BCH码为基础结合水印码构建具有强纠错机制的编码系统,通过长序列编码,减少引物和索引等冗余,实现高实际承载率(97%以上)。利用酿酒酵母体内组装系统组装和储存长序列和保存信息,依靠酿酒酵母、大肠杆菌或芽孢杆菌等模式生物实现信息的低成本、高保真、高速度复制。同时因为强纠错系统的存在,可以在二代三代测序下实现低覆盖度(1‑5X)完美还原菌体中的数据。

【技术实现步骤摘要】
基于DNA的信息存储方法
本专利技术涉及信息存储
,尤其涉及基于DNA的信息存储方法。
技术介绍
人类社会已经进入信息爆炸时代,对存储介质和存储系统有了更高的要求。国际数据公司和易安信公司共同做的调查显示,现今全球数据总量正以50%的年增长率快速增长,2017年全球数据总量已经达到了16ZB,相当于十年前全球数据总量的100倍。根据该调查估算,至2020年,全球数据总量将达到44ZB,相当于45000个现有的亚马逊数据存储中心相加和的存储容量。现代数字计算机存储,通信和操作的二进制数据,通常表示为0和1。这些信息位的存储和传输与介质物理结构及信号相关联,例如晶体管的电子状态或磁性材料的磁性方向。同时,在自然中还以天然分子聚合物的形式来存储数字信息,例如细胞中的遗传密码。细胞中的DNA以脱氧核苷酸构建而成,不同的核苷酸以碱基区分,每个碱基位置可以有四种取值(A,C,G或T,分别代表碱基的化学名称),因此每个碱基本质上是相当于现代存储系统中的两位信息。DNA数字存储最引人注目的特征之一是其极高的物理存储密度。在DNA数据存储中,每位数据仅需至多14个原子,每两个碱基(4个信息位)之间距离仅0.34nm,目前还没有其他技术能够如此高密度地存储信息。此外,作为一种分子介质,基于DNA的数字存储可以实现三维上的存储,而不像磁盘一样是在介质表面的二维存储,意味着DNA将占用更少的物理空间。使用DNA存储数字数据的想法最初是在20世纪90年代中期由Baum提出的。最早的验证实验表明,信息是可以存储在DNA中的(Clellandetal.,1999),他们首先在《Nature》上发表了基于DNA的信息隐写术的文章,他们把有用信息存放于一堆垃圾信息里面并通过特定密钥特异性地找出隐藏信息。随着DNA存储的发展逐渐转向于对编码方案的设计,一批计算机背景科学家开始关注这个方向,并在此基础上对编码有了进一步的深入研究,提出了很多新颖的编码方案。Chen等更进一步阐述了基于DNA的具有学习和搜索能力的存储模型,该模型将存储定义为学习过程,实现了一定程度上的DNA信息存储(Chenetal.,2003);同一时期在编码上的创新还有利用氨基酸三联密码子和各个氨基酸的简称将文本反向存储为密码子,将一段小诗翻译存储进DNA序列(Bogardetal.,2008)以及Ailenberg等用了改进的Huffman三进制编码方法将文本歌曲和一只小羊图片写入DNA(Ailenbergetal.,2009)。全新的编码方案实现了在DNA上编码数据的探索,尤其是Huffman码的利用规避了DNA合成和测序上一部分较难合成和测序的片段问题,使得编码为技术服务,更具数学科学性。然而由于DNA合成和测序技术的限制,直到几年后(Churchetal.,2012&Goldmanetal.,2013)才能在DNA中存储相对大量的数据。这些研究再次引起了来自不同领域学者在DNA中不断增加信息量的兴趣。Yaniv和Dina首次将通讯过程中使用的喷泉码理念运用到DNA存储中,将编码理念从传统的简单换算加纠错码的策略提升到了更偏向于实际通讯运用的高度,实现了文件的无损读取(Yanivetal.,2017)。喷泉码在DNA的运用将DNA存储与通讯编码以特定相似的特性巧妙又完美地结合在一起,这也让人们看到了DNA存储与实际通讯编码相结合的可能性。而近期华盛顿大学,微软和美国Twist的研究人员最近在DNA中编码了200MB的信息,并准确检索了这些数据,这是迄今为止最大的基于DNA的存储项目(Organicketal.,2018)。现有DNA信息存储技术受限于DNA合成技术,主要着眼于短序列(200bp以下),其存储技术有以下缺点:编码(纠错码)简单(Huffman+RS纠错码为主),DNA序列实际承载率低(由引物、地址和冗余等其他无效序列引起,实际承载率通常在60%以下)、复制成本高(PCR扩增在需要大量复制时需要大量DNA聚合酶,成本较高)和复制保真性差(PCR过程中碱基突变率高和可能引起的扩增不均衡)。
技术实现思路
有鉴于此,本专利技术要解决的技术问题在于提供基于DNA的信息存储方法,该方法能够实现对长片段的存储。本专利技术提供的基于DNA的信息存储方法,包括:将信息转换为二进制序列;将所述二进制序列转换为DNA序列;按照DNA序列合成DNA片段后,将其转化入微生物、保存。现有的DNA信息存储技术中,信息以DNA干粉或溶液的形式储存,受限于DNA合成技术,大分子的DNA合成较为困难,因此,目前的DNA信息存储技术很难对大量的信息进行存储,且DNA序列的实际承载率较低。本专利技术利用酿酒酵母体内组装系统组装和储存长序列和保存信息。因此,本专利技术所述存储的信息为文字、图片和/或视频。然后依靠酿酒酵母、大肠杆菌或芽孢杆菌等模式生物实现信息的低成本、高保真、高速度复制。数据在计算机中以二进制形式存在,本专利技术中,所述信息转化为二进制序列包括:将信息转化为二进制比特序列,然后分段进行纠错编码。所述分段为:每(212-1)bp分成一个分组,进行纠错编码。本专利技术中,所述纠错编码的方案为低密度奇偶校验叠加水印码。在本专利技术实施例中,采用的纠错码方案为低密度奇偶校验(LDPC)码作为传统纠错码,然后叠加水印码,用来纠正长序列测序、组装过程中产生的空缺(gap)、碱基/碱基片段的插入(Insertion)与缺失(Deletion)等,处理在基因组(或者质粒)复制过程、测序与组装过程中的各类错误。采用的水印码的码率为4/5;采用的LDPC码的码长为64800比特,信息位长度为32400比特,码率为1/2;整体的效率为每个碱基表示0.8比特。本专利技术中,所述二进制序列转换为DNA序列采用两个比特转化一个碱基的方法,所述转换预设对应关系为:00→A,01→T,10→G,11→C。A为腺嘌呤,T为胸腺嘧啶,G为鸟嘌呤,C为胞嘧啶。本专利技术中,所述DNA序列的长度为10kbp~100kbp。本专利技术中,所述体内组装的片段长度为1~4kbp,片段之间同源序列的长度为30~150bp。本专利技术利用酵母菌的体内组装技术,使得长片段的获得更容易实现,且片段之间不再需要接头、引物或地址等冗余无效序列,提高了实际承载率。本专利技术中,所述DNA片段的制备方法包括:PCR扩增后进行酵母菌体内组装。一些实施例中,所述DNA片段的制备方法包括:①、将DNA序列打断成长度为1kbp~3kbp,包含上下游同源序列的序列;②、按照①所述的序列合成DNA片段;③、利用PCR方法,将5’端第一个片段的5’端连接微生物插入位点的同源左臂;将3’端的最后一个片段的3’端连接微生物插入位点的同源右臂;④、将LiAc、PEG3350、连接有同源左臂、同源右臂和其他DNA片段与酿酒酵母共同孵育。本专利技术中,所述微生物为原核生物或真核生物;所述原核生物优选为大肠杆菌或芽孢杆菌;所述真核生物为酵母菌。本专利技术中,微生物的选择可根据不同的存储和发行需要来进行。例如:需快速复制则存入大肠杆菌中;需常温超长期保存(如:20年以上)存入芽孢杆菌中;而酵母菌则可以存入更长的片段,且可直接进行体内组装。为了实现在其他微生物体内的DNA信息存储,在经过人工合成和酵本文档来自技高网
...

【技术保护点】
1.基于DNA的信息存储方法,包括:将信息转换为二进制序列;将所述二进制序列转换为DNA序列;按照DNA序列合成DNA片段后,将其转化入微生物、保存。

【技术特征摘要】
1.基于DNA的信息存储方法,包括:将信息转换为二进制序列;将所述二进制序列转换为DNA序列;按照DNA序列合成DNA片段后,将其转化入微生物、保存。2.根据权利要求1所述的信息存储方法,其特征在于,所述二进制序列转换为DNA序列的预设对应关系为:00→A,01→T,10→G,11→C。3.根据权利要求1或2所述的信息存储方法,其特征在于,所述DNA序列的长度为10kbp~100kbp。4.根据权利要求1或2所述的信息存储方法,其特征在于,所述DNA片段的制备方法包括:PCR扩增后进行酵母菌体内组装。5.根据权利要求4所述的信息存储方法,其特征在于,所述酵母菌体内组装的片段长度为1~4kbp,片段之间同源序列的长度为30~...

【专利技术属性】
技术研发人员:元英进韩明哲陈为刚章新晨
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1