【技术实现步骤摘要】
将数据进行生物存储并还原的方法
本专利技术属于涉及生物信息学、合成生物学和计算机领域,尤其涉及一种能够将数据转换为具有生物适应性的DNA序列,以及将该DNA序列库还原为原始数据的转换方法。
技术介绍
21世纪是生命科学的世纪,也是信息和大数据的世纪。当前,信息技术蓬勃发展,所伴生的一个重要问题就是如何处理日益庞大的数据。根据InternationalDataCorporation提供的资料,全世界所产生的信息数据总量在2009年已经达到约0.8ZB(1ZB=1.18*1021B),同时,该机构还预测,至2020年为止,全球数据总量将达到40ZB。现有的数据存储技术在如此巨大规模的数据量前暴露了其储存密度小,储存能耗高,储存周期短的不足。人们越来越需要一种新的途径来解决数据储存的难题。在这种现实背景下,长期以来一直承担着生物遗传信息的储存任务的生命大分子——DNA逐渐受到科学家们的关注。作为遗传信息的承载者,DNA具有远远超越现有存储技术的数据存储密度;并且在次优环境中也能保持储存信息的完整;生命周期可以很长,并且能够通过自我复制或人为扩增实现信息的拷贝。前人在利用DNA信息储存技术实现数据的生物存储上做出了很多努力,如Church等人通过数据DNA的“破碎化”及基于ASCII码的二进制转换,改变了原来的研究中将全部数据转换到一条完整的长单链DNA的思路,而采取通过一系列部分重叠的短DNA序列(序列的全集代表完整的数据信息)进行数据储存。在此基础上,Goldman等人进一步优化了策略,采用三进制的转换算法以提高信息储存率,通过“自由碱基”来防止单碱基连续重复 ...
【技术保护点】
将数据转换为数据DNA序列的方法,包括将数据划分为一个或更多个数据转换单元,并提供每个数据转换单元的二进制数序列,按照下述步骤将每个数据单元转换为一条数据DNA序列,由此获得数据DNA序列库;所述数据DNA序列库包含一条或更多条数据DNA序列,每条数据DNA序列由一个数据转换单元转换而来;所述步骤包括:按照dataDNA序列转换规则将每个数据转换单元的二进制数序列转换为一条dataDNA序列,即为一条数据DNA序列;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i‑2,i‑1];(b)对于dataDNA序列的首两位,按下表中与条件
【技术特征摘要】
1.将数据转换为数据DNA序列的方法,包括将数据划分为一个或更多个数据转换单元,并提供每个数据转换单元的二进制数序列,按照下述步骤将每个数据单元转换为一条数据DNA序列,由此获得数据DNA序列库;所述数据DNA序列库包含一条或更多条数据DNA序列,每条数据DNA序列由一个数据转换单元转换而来;所述步骤包括:按照dataDNA序列转换规则将每个数据转换单元的二进制数序列转换为一条dataDNA序列,即为一条数据DNA序列;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换2.将数据转换为数据DNA序列的方法,所述方法包括将数据划分为一个或更多个数据转换单元,并提供每个数据转换单元的二进制数序列,按照下述步骤将每个数据转换单元转换为一条数据DNA序列,由此获得数据DNA序列库;所述数据DNA序列库包含一条或更多条数据DNA序列,每条数据DNA序列由一个数据转换单元转换而来;所述步骤包括:(1)将数据转换单元在数据中的位置编号转换为固定位数的三进制数序列,根据indexDNA序列转换规则将所述三进制数序列转换为碱基数与三进制数序列的位数相同的indexDNA序列;所述indexDNA序列转换规则是:(a)对于indexDNA序列的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于indexDNA序列的首两位,按下表中与条件相应的对应关系进行三进制数与碱基的对应转换;(c)从indexDNA序列的第三位起,依次按照上表所示规则进行转换,首先判断第i位满足上表中的哪一组条件,然后按照与该条件相应的对应关系进行第i位上三进制数与碱基的对应转换;(2)按照dataDNA序列转换规则将数据转换单元的二进制数序列转换为dataDNA序列;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换;碱基ACTCCGGAGTGC二进制数序列0100011011(3)将该数据转换单元的indexDNA序列与dataDNA序列相连,连接处加入长度为2个碱基的保护序列,得到index+dataDNA序列,即为一条数据DNA序列。3.将数据转换为包含突变校正序列的数据DNA序列的方法,所述方法包括将数据划分为一个或更多个数据转换单元,并提供每个数据转换单元的二进制数序列,按照下述步骤将每个数据转换单元转换为一条包含突变校正序列的数据DNA序列,由此获得数据DNA序列库;所述数据DNA序列库包含一条或更多条数据DNA序列,每条数据DNA序列由一个数据转换单元转换而来;所述步骤包括:(1)将数据转换单元的二进制数序列转换为不包含突变校正序列的初步数据DNA序列,所述初步数据DNA序列包含数据转换单元的数据内容信息;(2)首先根据初步数据DNA序列生成4位碱基的初步判断序列:根据下式计算i=A,T,C,G时的碱基数量判断值X(i):X(i)=(-1)N(i)其中i=A,T,C,G;N(i)为i碱基在初步数据DNA序列中出现的个数;用初步判断序列的4位碱基分别储存i=A,T,C,G时的碱基数量判断值X(i),用碱基C和G分别储存-1和1,生成初步判断序列;然后根据初步数据DNA序列生成10位碱基的深度判断序列:根据下式计算初步数据DNA序列的碱基按位加权求和值sum:其中i=A,T,C,G;val(i)为碱基i的值,val(A)、val(T)、val(C)、val(G)分别对应1、2、3、4;position(i)为碱基i的位置坐标;N为初步数据DNA序列的总长;将碱基按位加权求和值sum的值转换为10位的三进制数序列,生成深度判断序列;将初步判断序列与深度判断序列相连,并在连接处加入保护碱基C,获得correctionDNA序列;(3)将初步数据DNA序列与correctionDNA序列相连,并在连接处加入长度为2个碱基的保护序列,获得包含突变校正序列的数据DNA序列。4.根据权利要求3的方法,其中步骤(1)包括:按照dataDNA序列转换规则将所述数据转换单元的二进制数序列转换为dataDNA序列,以该dataDNA序列作为不包含突变校正序列的初步数据DNA序列;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换5.根据权利要求3的方法,其中步骤(1)包括:(1-1)将所述数据转换单元在数据中的位置编号转换为固定位数的三进制数序列,根据indexDNA序列转换规则将所述三进制数序列转换为碱基数与三进制数序列的位数相同的indexDNA序列;所述indexDNA序列转换规则是:(a)对于indexDNA序列的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于indexDNA序列的首两位,按下表中与条件相应的对应关系进行三进制数与碱基的对应转换;(c)从indexDNA序列的第三位起,依次按照上表所示规则进行转换,首先判断第i位满足上表中的哪一组条件,然后按照与该条件相应的对应关系进行第i位上三进制数与碱基的对应转换;(1-2)按照dataDNA序列转换规则将所述数据转换单元的二进制数序列转换为dataDNA序列;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换;碱基ACTCCGGAGTGC二进制数序列0100011011(1-3)将所述数据转换单元的indexDNA序列与dataDNA序列相连,连接处加入长度为2个碱基的保护序列,得到index+dataDNA序列,获得的index+dataDNA序列作为不包含突变校正序列的初步数据DNA序列。6.根据权利要求5的方法,其中在步骤(1-3)中,将correctionDNA连接在index+dataDNA序列中的dataDNA一端。7.加密的数据DNA序列转换方法,包括:(1)提供用户名和密码,根据用户名和密码随机生成dataDNA序列转换规则中每一组对应关系中特定二进制数和特定碱基之间的对应方式;(2)利用权利要求1-6任一项的方法将数据转换为数据DNA序列,其中按照dataDNA序列转换规则将数据转换单元的二进制数序列转换为dataDNA序列时,按照步骤(1)生成的对应方式将特定二进制数转换为相应的特定碱基。8.根据权利要求1-7任一项的方法,其中所述方法是在计算机上实施的。9.利用DNA序列存储数据的方法,包括:利用权利要求1-8任一项的方法将数据转换为数据DNA序列,合成所述DNA序列,以及储存合成的DNA序列。10.根据权利要求9的方法,其中所述储存合成的DNA序列是将DNA序列以质粒形式储存在细胞中,或者是将DNA序列整合到细胞基因组中。11.将测序获得的DNA序列还原为数据的方法,包括:(1)提供测序获得的DNA序列,其中所述DNA序列包括表示数据转换单元的数据内容信息的dataDNA序列;(2)按照dataDNA序列转换规则将dataDNA序列还原为数据;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换12.根据权利要求11的方法,其中步骤(2)中将dataDNA序列还原为二进制数形式的数据,或者进一步由该二进制数形式的数据还原为原始数据。13.将测序获得的DNA序列还原为数据的方法,包括:(1)提供测序获得的DNA序列,所述DNA序列的序列为多条数据DNA序列,每条数据DNA序列包括表示数据转换单元位置信息的indexDNA序列和表示数据转换单元的数据内容信息的dataDNA序列;(2)按照indexDNA序列转换规则将每条数据DNA序列中的indexDNA序列还原为三进制数序列,再将该三进制数序列还原为该转换单元在数据中的位置编号;所述indexDNA序列转换规则是:(a)对于indexDNA序列的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于indexDNA序列的首两位,按下表中与条件相应的对应关系进行三进制数与碱基的对应转换;(c)从indexDNA序列的第三位起,依次按照上表所示规则进行转换,首先判断第i位满足上表中的哪一组条件,然后按照与该条件相应的对应关系进行第i位上三进制数与碱基的对应转换;(3)按照dataDNA序列转换规则将每条数据DNA序列中的dataDNA序列还原为数据;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换;碱基ACTCCGGAGTGC二进制数序列0100011011(4)将由每条数据DNA序列的dataDNA序列还原而来的数据按照其位置编号顺序相连,获得还原后的数据。14.根据权利要求13的方法,其中步骤(3)中将dataDNA序列还原为二进制数形式的数据,或者进一步由该二进制数形式的数据还原成字符串;且步骤(4)中的还原后的数据,是二进制数形式的数据,或者是由该二进制数形式的数据进一步还原而成的原始数据,或者是由步骤(3)获得的字符串按照其位置编号顺序相连获得的字符串数据或由该字符串数据进一步还原而成的数据。15.将测序获得的DNA序列校正还原为数据的方法,包括:(1)提供测序获得的DNA序列,所述DNA序列包含初步数据DNA序列和突变校正序列,其中所述初步数据DNA序列包含数据转换单元的数据内容信息;所述测序获得的DNA序列中初步数据DNA序列最多具有一个碱基的突变;(2)根据该初步数据DNA序列的测序序列,按照下式规则计算获得该初步数据DNA序列的测序序列的碱基数量判断值X'(i):X′(i)=(-1)N(i)其中i=A,T,C,G;N(i)为i碱基在该初步数据DNA序列的测序序列中出现的个数;将该初步数据DNA序列的测序序列的碱基数量判断值X'(i)与由测序获得的DNA序列中包含的突变校正序列中的初步判断序列按相同规则还原获得的碱基数量判断值X(i)对比:如果有两个碱基的碱基数量判断值发生变化,则表明该初步数据DNA序列的测序序列相对于未突变的初步数据DNA序列发生了碱基替换,且该替换是这两个碱基之一被另一个替换;如果仅有一个碱基的碱基数量判断值发生变化,则表明该初步数据DNA序列的测序序列相对于未突变的初步数据DNA序列发生了这一个碱基的插入或删除;如果没有碱基的碱基数量判断值发生变化,则表明该初步数据DNA序列的测序序列未发生突变;(3)根据该初步数据DNA序列的测序序列,按照下式规则计算获得该初步数据DNA序列的测序序列的碱基按位加权求和值sum':其中i=A,T,C,G;val(i)为碱基i的值,val(A)、val(T)、val(C)、val(G)分别对应1、2、3、4;position(i)为碱基i的位置坐标;N为该初步数据DNA序列的测序序列的总长;将该初步数据DNA序列的测序序列的碱基按位加权求和值sum'与由测序获得的DNA序列中包含的突变校正序列中的深度判断序列按相同规则还原获得的碱基按位加权求和值sum对比;在该初步数据DNA序列的测序序列相对于未突变的初步数据DNA序列发生碱基替换的情况下:如果sum'>sum,则所发生的碱基替换是val(i)值较小的碱基被替换为val(i)值较大的碱基,如果sum'<sum,则所发生的碱基替换是val(i)值较大的碱基被替换为val(i)值较小的碱基,发生碱基替换的位置坐标是sum'和sum之差除以所述两个碱基的val(i)之差所得除数的绝对值,将该位置上的碱基替换为所述两个碱基中的另一个,将测序序列校正为未突变的初步数据DNA序列;在该初步数据DNA序列的测序序列相对于未突变的初步数据DNA序列发生一个碱基的插入或删除的情况下:如果sum'>sum,则发生碱基插入,所述碱基插入位置按下述方法判断:从该初步数据DNA序列的测序序列中第一次出现所述碱基的位置开始,逐个删除每一个出现所述碱基的位置上的所述碱基,并在删除后按照下式规则计算获得删除后的初步数据DNA序列的碱基按位加权求和值sum”:其中i=A,T,C,G;val(i)为碱基i的值,val(A)、val(T)、val(C)、val(G)分别对应1、2、3、4;position(i)为碱基i的位置坐标;N为删除所述碱基后初步数据DNA序列的总长;当删除某个位置上的所述碱基之后计算获得的碱基按位加权求和值sum”与由测序获得的DNA序列中包含的突变校正序列中的深度判断序列按相同规则还原获得的碱基按位加权求和值sum相等时,该位置即为所述碱基插入突变位置,将该位置上的所述碱基删除,将测序序列校正为未突变的初步数据DNA序列;如果sum'<sum,则发生碱基删除,所述碱基删除位置按下述方法判断:从该初步数据DNA序列的测序序列的第一位开始,逐个位置上插入所述碱基,并在插入后按照下式规则计算获得插入后的初步数据DNA序列的碱基按位加权求和值sum”':其中i=A,T,C,G;val(i)为碱基i的值,val(A)、val(T)、val(C)、val(G)分别对应1、2、3、4;position(i)为碱基i的位置坐标;N为插入所述碱基后初步数据DNA序列的总长;当在某个位置上插入所述碱基之后计算获得的碱基按位加权求和值sum”'与由测序获得的DNA序列中包含的突变校正序列中的深度判断序列按相同规则还原获得的碱基按位加权求和值sum相等时,该位置即为所述碱基删除突变位置,在该位置上插入所述碱基,将测序序列校正为未突变的初步数据DNA序列;(4)将未突变的初步数据DNA序列还原为数据。16.根据权利要求15的方法,其中初步数据DNA序列包含表示数据转换单元的数据内容信息的dataDNA序列,步骤(4)包括按照dataDNA序列转换规则将未突变的初步数据DNA序列包含的dataDNA序列还原为数据;所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换;17.根据权利要求16的方法,其中步骤(4)中将未突变的初步数据DNA序列包含的dataDNA序列还原为二进制数形式的数据,或者进一步由该二进制数形式的数据还原为原始数据。18.根据权利要求15的方法,其中测序获得的DNA序列的序列为多条数据DNA序列,每条数据DNA序列的初步数据DNA序列包含表示数据转换单元位置信息的indexDNA序列和表示数据转换单元的数据内容信息的dataDNA序列,步骤(4)包括:(4-1)按照indexDNA序列转换规则将每条数据DNA序列中的indexDNA序列还原为三进制数序列,再将该三进制数序列还原为该转换单元在数据中的位置编号,所述indexDNA序列转换规则是:(a)对于indexDNA序列的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于indexDNA序列的首两位,按下表中与条件相应的对应关系进行三进制数与碱基的对应转换;(c)从indexDNA序列的第三位起,依次按照上表所示规则进行转换,首先判断第i位满足上表中的哪一组条件,然后按照与该条件相应的对应关系进行第i位上三进制数与碱基的对应转换;(4-2)按照dataDNA序列转换规则将每条数据DNA序列中的dataDNA序列还原为数据,所述dataDNA序列转换规则是:(a)对于dataDNA序列中的第i位,将该位置之前的两位碱基表示为d=[i-2,i-1];(b)对于dataDNA序列的首两位,按下表中与条件相应的对应关系进行二进制数与碱基的对应转换;*其中当d=[C,A]时,位置i上为碱基C,该碱基C不对应任何二进制数(c)从dataDNA序列的第三位起,依次按上表所示规则进行转换,首先判断第i位满足上表中的哪一条件,然后按照与该条件相应的对应关系进行第i位上二进制数与碱基的对应转换;(d)当二进制数序列剩余1位或2位时,使用下表所示规则进行二进制数与碱基的对应转换;碱基ACTCCGGAGTGC二进制数序列0100011011(4-3)将由每条数据DNA序列的dataDNA序列还原而来的数据按照其位置编号顺序相连,获得还原后的数据。19.根据权利要求18的方法,其中步骤(4-2)中将dataDNA序列还原为二进制数形式的数据,或者进一步由该二进制数形式的数据还原成字符串;且步骤(4-3)中还原后的数据是二进制数形式的数据,或者是由该二进制数形式的数据进一步还原而成的原始数据,或者是由dataDNA序列还原获得的字符串按照其位置编号顺序相连获得的字符串数据或由该字符串数据进一步还原而成的数据。20.将测序获得的加密DNA序列还原为数据的方法,包括:(1)提供用户名和密码,得到dataDNA序列转换规则中每一组对应关系中特定二进制数和特定碱基之间的对应方式,所述对应方式是将数据转换为所述加密DNA序列时针对同一用户名和密码设定的对应方式;(2)用权利要求11-19任一项的方法将测序获得的加密DNA序列还原为数据,且其中按照dataDNA序列转换规则将每一条DNA序列中的dataDNA序列还原为数据时,按照步骤(1)得到的对应方式将特定碱基还原为相应的特定二进制数。21.根据权利要求11-20任一项的...
【专利技术属性】
技术研发人员:戴俊彪,吴庆余,乃哥麦提·伊加提,孙凯文,董俊凯,秦怡然,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。