当前位置: 首页 > 专利查询>清华大学专利>正文

将数据进行生物存储并还原的方法技术

技术编号:17467720 阅读:67 留言:0更新日期:2018-03-15 05:10
本发明专利技术涉及将数据转换为具有良好生物可植入性的数据DNA序列,以及将该DNA序列库还原为原始数据的方法和装置,还涉及用于实现该方法的软件产品和储存有该软件产品的计算机可读存储介质。本发明专利技术实现了通过构建数据DNA文库进行生物体内储存数据的可能。

【技术实现步骤摘要】
将数据进行生物存储并还原的方法
本专利技术属于涉及生物信息学、合成生物学和计算机领域,尤其涉及一种能够将数据转换为具有生物适应性的DNA序列,以及将该DNA序列库还原为原始数据的转换方法。
技术介绍
21世纪是生命科学的世纪,也是信息和大数据的世纪。当前,信息技术蓬勃发展,所伴生的一个重要问题就是如何处理日益庞大的数据。根据InternationalDataCorporation提供的资料,全世界所产生的信息数据总量在2009年已经达到约0.8ZB(1ZB=1.18*1021B),同时,该机构还预测,至2020年为止,全球数据总量将达到40ZB。现有的数据存储技术在如此巨大规模的数据量前暴露了其储存密度小,储存能耗高,储存周期短的不足。人们越来越需要一种新的途径来解决数据储存的难题。在这种现实背景下,长期以来一直承担着生物遗传信息的储存任务的生命大分子——DNA逐渐受到科学家们的关注。作为遗传信息的承载者,DNA具有远远超越现有存储技术的数据存储密度;并且在次优环境中也能保持储存信息的完整;生命周期可以很长,并且能够通过自我复制或人为扩增实现信息的拷贝。前人在利用DNA信息储存技术实现数据的生物存储上做出了很多努力,如Church等人通过数据DNA的“破碎化”及基于ASCII码的二进制转换,改变了原来的研究中将全部数据转换到一条完整的长单链DNA的思路,而采取通过一系列部分重叠的短DNA序列(序列的全集代表完整的数据信息)进行数据储存。在此基础上,Goldman等人进一步优化了策略,采用三进制的转换算法以提高信息储存率,通过“自由碱基”来防止单碱基连续重复的出现,通过部分重叠短序列产生4倍冗余的机制增加数据DNA的拷贝,用于防御DNA合成、保存和测序过程中出现的错误。Church和Goldman等人认为应该在体外保存得到的数据DNA,将数据DNA转入生物载体内是不具备任何经济效益的,反而会带来很多的问题。而真正实现在生物载体内保存人工合成的数据DNA的是DavidHaughton等人,通过在载体细胞noncodingDNA序列中的无用区植入数据DNA,“类四进制”的算法实现高信息储存率的同时防止起始密码子的出现,LDPCcodes+modifiedwatermarksynchronisationcode解决基因突变后的再同步化和纠错等手段实现了既不让外源DNA显著的影响载体生物的生命活动,也让载体生物的传代过程向数据DNA序列引入突变。尽管前人在利用DNA储存数据的工作已经取得了很大的进展,但目前仍然存在着很多问题。首先,Church等人采取的二进制算法在信息储存密度上有很大的提升空间,由单碱基连续重复而引入的较高突变率问题也未得到解决;其次,Goldman教授团队虽然应用三进制算法同时改善了以上两个问题,但他们得到的2.2PB/克单链DNA的信息储存密度较445EB/克单链DNA的理论值仍还有很大的距离,这个问题的出现一方面是来自于三进制的转换法则本身的限制,另一方面是由于四倍冗余的纠错机制将序列长度增加到原序列的4倍,将转换效率降低到四分之一,相应地DNA合成和测序的成本也将同时增加4倍;而且,Church和Goldman等人都只解决了在体外保存DNA的前提下通过DNA储存数据的问题,对于将数据DNA植入生物体内所需解决的生物适应性和纠错机制问题,他们没有能够给出好的解决方案;最后,来自计算机领域的DavidHaughton等人用“类四进制”的算法和信道编码技术相结合的手段显著提高了信息储存密度并给出了满足生物适应性和纠错机制的接近最优解,但同样地也存在着问题,如“类四进制”算法中会出现0/1二进制序列末端1或2位无法被正确编码的问题,以及位置信息序列的生成和整合过程中防止起始密码子出现的问题,而且DavidHaughton等人只给出了如何将数据转换为数据DNA序列的一套方案,对生物储存的完整过程没有给出方案,也没有进行实际的尝试和测试。
技术实现思路
本专利技术提供将数据转换为数据DNA序列的方法,利用DNA序列作为信息存储介质,来储存数据。利用本专利技术的方法转换获得的DNA序列,适合于储存在生物体内,例如以质粒形式储存在细胞中,或者被整合在细胞基因组上。本专利技术的方法中,将信息量较大的数据划分为数据转换单元,将每个数据转换单元转换为一条单链DNA短序列,由此将数据转换为一系列单链DNA短序列的集合。其中每条单链DNA短序列的长度适合于进行基因操作,例如适合于被克隆到质粒中或者适合于被整合到细胞基因组中,因而便于将转换得到的DNA序列储存在生物体内。本专利技术中,使用特别设计的dataDNA序列转换规则将数据转换单元转换为表示该转换单元数据信息的dataDNA序列,以及将单链DNA短序列中的dataDNA序列还原为数据转换单元的二进制数序列。所述dataDNA序列转换规则可以防止dataDNA序列中初始密码子的生成、防止数据DNA序列中单碱基连续重复序列的生成。所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件d集合{AT,CT,TT,CA,AA,GG,CC}相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换除非特别指出,下文中所述的任何方案中所提及的“dataDNA序列转换规则”均是指上述dataDNA序列转换规则。本专利技术中,每条单链DNA短序列还可以包含表示数据转换单元的位置信息的indexDNA序列,以指示该单链DNA短序列中包含的数据转换单元信息在整个数据中的位置信息,从而便于在将一系列单链DNA短序列的集合还原为一系列数据转换单元时,将这些数据转换单元拼接而成原始数据。本专利技术中,在获得indexDNA序列时,首先将数据转换单元在数据中的位置编号转换为固定位数的三进制数序列,然后使用特别设计的indexDNA序列转换规则将所述三进制数序列转换为碱基数与三进制数序列的位数相同的indexDNA序列。在进行数据还原时,首先用所述indexDNA序列转换规则将indexDNA序列转换为三进制数序列,然后再将该三进制数序列转换为数据转换单元在数据中的位置编号。所述indexDNA序列转换规则是:(a)对于indexDNA序列的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于indexDNA序列的首两位,按下表中与条件d集合{AT,CT,TT,CA,AA,CC,GG}相应的对应关系进行三进制数与碱基的对应转换;(c)从indexDNA序列的第三位起,依次按照上表所示规则进行转换,首先判断第i位满足上表中的哪一组条件,然后按照与该条件相应的对应关系进行第i位上三进制数与碱基的对应转换。除非特别指出,下文中所述的任何方案中所提及的“indexDNA序本文档来自技高网
...
将数据进行生物存储并还原的方法

【技术保护点】
将数据转换为数据DNA序列的方法,包括将数据划分为一个或更多个数据转换单元,并提供每个数据转换单元的二进制数序列,按照下述步骤将每个数据单元转换为一条数据DNA序列,由此获得数据DNA序列库;所述数据DNA序列库包含一条或更多条数据DNA序列,每条数据DNA序列由一个数据转换单元转换而来;所述步骤包括:按照dataDNA序列转换规则将每个数据转换单元的二进制数序列转换为一条dataDNA序列,即为一条数据DNA序列;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i‑2,i‑1];(b)对于dataDNA序列的首两位,按下表中与条件

【技术特征摘要】
1.将数据转换为数据DNA序列的方法,包括将数据划分为一个或更多个数据转换单元,并提供每个数据转换单元的二进制数序列,按照下述步骤将每个数据单元转换为一条数据DNA序列,由此获得数据DNA序列库;所述数据DNA序列库包含一条或更多条数据DNA序列,每条数据DNA序列由一个数据转换单元转换而来;所述步骤包括:按照dataDNA序列转换规则将每个数据转换单元的二进制数序列转换为一条dataDNA序列,即为一条数据DNA序列;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换2.将数据转换为数据DNA序列的方法,所述方法包括将数据划分为一个或更多个数据转换单元,并提供每个数据转换单元的二进制数序列,按照下述步骤将每个数据转换单元转换为一条数据DNA序列,由此获得数据DNA序列库;所述数据DNA序列库包含一条或更多条数据DNA序列,每条数据DNA序列由一个数据转换单元转换而来;所述步骤包括:(1)将数据转换单元在数据中的位置编号转换为固定位数的三进制数序列,根据indexDNA序列转换规则将所述三进制数序列转换为碱基数与三进制数序列的位数相同的indexDNA序列;所述indexDNA序列转换规则是:(a)对于indexDNA序列的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于indexDNA序列的首两位,按下表中与条件相应的对应关系进行三进制数与碱基的对应转换;(c)从indexDNA序列的第三位起,依次按照上表所示规则进行转换,首先判断第i位满足上表中的哪一组条件,然后按照与该条件相应的对应关系进行第i位上三进制数与碱基的对应转换;(2)按照dataDNA序列转换规则将数据转换单元的二进制数序列转换为dataDNA序列;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换;碱基ACTCCGGAGTGC二进制数序列0100011011(3)将该数据转换单元的indexDNA序列与dataDNA序列相连,连接处加入长度为2个碱基的保护序列,得到index+dataDNA序列,即为一条数据DNA序列。3.将数据转换为包含突变校正序列的数据DNA序列的方法,所述方法包括将数据划分为一个或更多个数据转换单元,并提供每个数据转换单元的二进制数序列,按照下述步骤将每个数据转换单元转换为一条包含突变校正序列的数据DNA序列,由此获得数据DNA序列库;所述数据DNA序列库包含一条或更多条数据DNA序列,每条数据DNA序列由一个数据转换单元转换而来;所述步骤包括:(1)将数据转换单元的二进制数序列转换为不包含突变校正序列的初步数据DNA序列,所述初步数据DNA序列包含数据转换单元的数据内容信息;(2)首先根据初步数据DNA序列生成4位碱基的初步判断序列:根据下式计算i=A,T,C,G时的碱基数量判断值X(i):X(i)=(-1)N(i)其中i=A,T,C,G;N(i)为i碱基在初步数据DNA序列中出现的个数;用初步判断序列的4位碱基分别储存i=A,T,C,G时的碱基数量判断值X(i),用碱基C和G分别储存-1和1,生成初步判断序列;然后根据初步数据DNA序列生成10位碱基的深度判断序列:根据下式计算初步数据DNA序列的碱基按位加权求和值sum:其中i=A,T,C,G;val(i)为碱基i的值,val(A)、val(T)、val(C)、val(G)分别对应1、2、3、4;position(i)为碱基i的位置坐标;N为初步数据DNA序列的总长;将碱基按位加权求和值sum的值转换为10位的三进制数序列,生成深度判断序列;将初步判断序列与深度判断序列相连,并在连接处加入保护碱基C,获得correctionDNA序列;(3)将初步数据DNA序列与correctionDNA序列相连,并在连接处加入长度为2个碱基的保护序列,获得包含突变校正序列的数据DNA序列。4.根据权利要求3的方法,其中步骤(1)包括:按照dataDNA序列转换规则将所述数据转换单元的二进制数序列转换为dataDNA序列,以该dataDNA序列作为不包含突变校正序列的初步数据DNA序列;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换5.根据权利要求3的方法,其中步骤(1)包括:(1-1)将所述数据转换单元在数据中的位置编号转换为固定位数的三进制数序列,根据indexDNA序列转换规则将所述三进制数序列转换为碱基数与三进制数序列的位数相同的indexDNA序列;所述indexDNA序列转换规则是:(a)对于indexDNA序列的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于indexDNA序列的首两位,按下表中与条件相应的对应关系进行三进制数与碱基的对应转换;(c)从indexDNA序列的第三位起,依次按照上表所示规则进行转换,首先判断第i位满足上表中的哪一组条件,然后按照与该条件相应的对应关系进行第i位上三进制数与碱基的对应转换;(1-2)按照dataDNA序列转换规则将所述数据转换单元的二进制数序列转换为dataDNA序列;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换;碱基ACTCCGGAGTGC二进制数序列0100011011(1-3)将所述数据转换单元的indexDNA序列与dataDNA序列相连,连接处加入长度为2个碱基的保护序列,得到index+dataDNA序列,获得的index+dataDNA序列作为不包含突变校正序列的初步数据DNA序列。6.根据权利要求5的方法,其中在步骤(1-3)中,将correctionDNA连接在index+dataDNA序列中的dataDNA一端。7.加密的数据DNA序列转换方法,包括:(1)提供用户名和密码,根据用户名和密码随机生成dataDNA序列转换规则中每一组对应关系中特定二进制数和特定碱基之间的对应方式;(2)利用权利要求1-6任一项的方法将数据转换为数据DNA序列,其中按照dataDNA序列转换规则将数据转换单元的二进制数序列转换为dataDNA序列时,按照步骤(1)生成的对应方式将特定二进制数转换为相应的特定碱基。8.根据权利要求1-7任一项的方法,其中所述方法是在计算机上实施的。9.利用DNA序列存储数据的方法,包括:利用权利要求1-8任一项的方法将数据转换为数据DNA序列,合成所述DNA序列,以及储存合成的DNA序列。10.根据权利要求9的方法,其中所述储存合成的DNA序列是将DNA序列以质粒形式储存在细胞中,或者是将DNA序列整合到细胞基因组中。11.将测序获得的DNA序列还原为数据的方法,包括:(1)提供测序获得的DNA序列,其中所述DNA序列包括表示数据转换单元的数据内容信息的dataDNA序列;(2)按照dataDNA序列转换规则将dataDNA序列还原为数据;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换12.根据权利要求11的方法,其中步骤(2)中将dataDNA序列还原为二进制数形式的数据,或者进一步由该二进制数形式的数据还原为原始数据。13.将测序获得的DNA序列还原为数据的方法,包括:(1)提供测序获得的DNA序列,所述DNA序列的序列为多条数据DNA序列,每条数据DNA序列包括表示数据转换单元位置信息的indexDNA序列和表示数据转换单元的数据内容信息的dataDNA序列;(2)按照indexDNA序列转换规则将每条数据DNA序列中的indexDNA序列还原为三进制数序列,再将该三进制数序列还原为该转换单元在数据中的位置编号;所述indexDNA序列转换规则是:(a)对于indexDNA序列的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于indexDNA序列的首两位,按下表中与条件相应的对应关系进行三进制数与碱基的对应转换;(c)从indexDNA序列的第三位起,依次按照上表所示规则进行转换,首先判断第i位满足上表中的哪一组条件,然后按照与该条件相应的对应关系进行第i位上三进制数与碱基的对应转换;(3)按照dataDNA序列转换规则将每条数据DNA序列中的dataDNA序列还原为数据;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换;碱基ACTCCGGAGTGC二进制数序列0100011011(4)将由每条数据DNA序列的dataDNA序列还原而来的数据按照其位置编号顺序相连,获得还原后的数据。14.根据权利要求13的方法,其中步骤(3)中将dataDNA序列还原为二进制数形式的数据,或者进一步由该二进制数形式的数据还原成字符串;且步骤(4)中的还原后的数据,是二进制数形式的数据,或者是由该二进制数形式的数据进一步还原而成的原始数据,或者是由步骤(3)获得的字符串按照其位置编号顺序相连获得的字符串数据或由该字符串数据进一步还原而成的数据。15.将测序获得的DNA序列校正还原为数据的方法,包括:(1)提供测序获得的DNA序列,所述DNA序列包含初步数据DNA序列和突变校正序列,其中所述初步数据DNA序列包含数据转换单元的数据内容信息;所述测序获得的DNA序列中初步数据DNA序列最多具有一个碱基的突变;(2)根据该初步数据DNA序列的测序序列,按照下式规则计算获得该初步数据DNA序列的测序序列的碱基数量判断值X'(i):X′(i)=(-1)N(i)其中i=A,T,C,G;N(i)为i碱基在该初步数据DNA序列的测序序列中出现的个数;将该初步数据DNA序列的测序序列的碱基数量判断值X'(i)与由测序获得的DNA序列中包含的突变校正序列中的初步判断序列按相同规则还原获得的碱基数量判断值X(i)对比:如果有两个碱基的碱基数量判断值发生变化,则表明该初步数据DNA序列的测序序列相对于未突变的初步数据DNA序列发生了碱基替换,且该替换是这两个碱基之一被另一个替换;如果仅有一个碱基的碱基数量判断值发生变化,则表明该初步数据DNA序列的测序序列相对于未突变的初步数据DNA序列发生了这一个碱基的插入或删除;如果没有碱基的碱基数量判断值发生变化,则表明该初步数据DNA序列的测序序列未发生突变;(3)根据该初步数据DNA序列的测序序列,按照下式规则计算获得该初步数据DNA序列的测序序列的碱基按位加权求和值sum':其中i=A,T,C,G;val(i)为碱基i的值,val(A)、val(T)、val(C)、val(G)分别对应1、2、3、4;position(i)为碱基i的位置坐标;N为该初步数据DNA序列的测序序列的总长;将该初步数据DNA序列的测序序列的碱基按位加权求和值sum'与由测序获得的DNA序列中包含的突变校正序列中的深度判断序列按相同规则还原获得的碱基按位加权求和值sum对比;在该初步数据DNA序列的测序序列相对于未突变的初步数据DNA序列发生碱基替换的情况下:如果sum'>sum,则所发生的碱基替换是val(i)值较小的碱基被替换为val(i)值较大的碱基,如果sum'<sum,则所发生的碱基替换是val(i)值较大的碱基被替换为val(i)值较小的碱基,发生碱基替换的位置坐标是sum'和sum之差除以所述两个碱基的val(i)之差所得除数的绝对值,将该位置上的碱基替换为所述两个碱基中的另一个,将测序序列校正为未突变的初步数据DNA序列;在该初步数据DNA序列的测序序列相对于未突变的初步数据DNA序列发生一个碱基的插入或删除的情况下:如果sum'>sum,则发生碱基插入,所述碱基插入位置按下述方法判断:从该初步数据DNA序列的测序序列中第一次出现所述碱基的位置开始,逐个删除每一个出现所述碱基的位置上的所述碱基,并在删除后按照下式规则计算获得删除后的初步数据DNA序列的碱基按位加权求和值sum”:其中i=A,T,C,G;val(i)为碱基i的值,val(A)、val(T)、val(C)、val(G)分别对应1、2、3、4;position(i)为碱基i的位置坐标;N为删除所述碱基后初步数据DNA序列的总长;当删除某个位置上的所述碱基之后计算获得的碱基按位加权求和值sum”与由测序获得的DNA序列中包含的突变校正序列中的深度判断序列按相同规则还原获得的碱基按位加权求和值sum相等时,该位置即为所述碱基插入突变位置,将该位置上的所述碱基删除,将测序序列校正为未突变的初步数据DNA序列;如果sum'<sum,则发生碱基删除,所述碱基删除位置按下述方法判断:从该初步数据DNA序列的测序序列的第一位开始,逐个位置上插入所述碱基,并在插入后按照下式规则计算获得插入后的初步数据DNA序列的碱基按位加权求和值sum”':其中i=A,T,C,G;val(i)为碱基i的值,val(A)、val(T)、val(C)、val(G)分别对应1、2、3、4;position(i)为碱基i的位置坐标;N为插入所述碱基后初步数据DNA序列的总长;当在某个位置上插入所述碱基之后计算获得的碱基按位加权求和值sum”'与由测序获得的DNA序列中包含的突变校正序列中的深度判断序列按相同规则还原获得的碱基按位加权求和值sum相等时,该位置即为所述碱基删除突变位置,在该位置上插入所述碱基,将测序序列校正为未突变的初步数据DNA序列;(4)将未突变的初步数据DNA序列还原为数据。16.根据权利要求15的方法,其中初步数据DNA序列包含表示数据转换单元的数据内容信息的dataDNA序列,步骤(4)包括按照dataDNA序列转换规则将未突变的初步数据DNA序列包含的dataDNA序列还原为数据;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换;17.根据权利要求16的方法,其中步骤(4)中将未突变的初步数据DNA序列包含的dataDNA序列还原为二进制数形式的数据,或者进一步由该二进制数形式的数据还原为原始数据。18.根据权利要求15的方法,其中测序获得的DNA序列的序列为多条数据DNA序列,每条数据DNA序列的初步数据DNA序列包含表示数据转换单元位置信息的indexDNA序列和表示数据转换单元的数据内容信息的dataDNA序列,步骤(4)包括:(4-1)按照indexDNA序列转换规则将每条数据DNA序列中的indexDNA序列还原为三进制数序列,再将该三进制数序列还原为该转换单元在数据中的位置编号,所述indexDNA序列转换规则是:(a)对于indexDNA序列的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于indexDNA序列的首两位,按下表中与条件相应的对应关系进行三进制数与碱基的对应转换;(c)从indexDNA序列的第三位起,依次按照上表所示规则进行转换,首先判断第i位满足上表中的哪一组条件,然后按照与该条件相应的对应关系进行第i位上三进制数与碱基的对应转换;(4-2)按照dataDNA序列转换规则将每条数据DNA序列中的dataDNA序列还原为数据,所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换;碱基ACTCCGGAGTGC二进制数序列0100011011(4-3)将由每条数据DNA序列的dataDNA序列还原而来的数据按照其位置编号顺序相连,获得还原后的数据。19.根据权利要求18的方法,其中步骤(4-2)中将dataDNA序列还原为二进制数形式的数据,或者进一步由该二进制数形式的数据还原成字符串;且步骤(4-3)中还原后的数据是二进制数形式的数据,或者是由该二进制数形式的数据进一步还原而成的原始数据,或者是由dataDNA序列还原获得的字符串按照其位置编号顺序相连获得的字符串数据或由该字符串数据进一步还原而成的数据。20.将测序获得的加密DNA序列还原为数据的方法,包括:(1)提供用户名和密码,得到dataDNA序列转换规则中每一组对应关系中特定二进制数和特定碱基之间的对应方式,所述对应方式是将数据转换为所述加密DNA序列时针对同一用户名和密码设定的对应方式;(2)用权利要求11-19任一项的方法将测序获得的加密DNA序列还原为数据,且其中按照dataDNA序列转换规则将每一条DNA序列中的dataDNA序列还原为数据时,按照步骤(1)得到的对应方式将特定碱基还原为相应的特定二进制数。21.根据权利要求11-20任一项的...

【专利技术属性】
技术研发人员:戴俊彪吴庆余乃哥麦提·伊加提孙凯文董俊凯秦怡然
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1