基于脱氧核糖核酸技术的数据编码方法及解码方法技术

技术编号:35362937 阅读:23 留言:0更新日期:2022-10-29 18:01
本申请实施例公开了一种基于脱氧核糖核酸技术的数据编码方法、解码方法、相关装置及系统,该编码方法包括:对目标数据包括的M段第一子数据编码,以得到M条第一碱基序列;获取M段第一子数据的M个第一索引和目标数据的第二索引,其中,第二索引为第一索引的一部分;对M个第一索引编码,以得到M条第二碱基序列;基于M条第一碱基序列和M条第二碱基序列得到N条第三碱基序列,其中,一条第三碱基序列是基于一条第二碱基序列,以及该条第二碱基序列的对应的第一碱基序列得到的;基于N条第三碱基序列,合成N条第一核苷酸序列;该编码方法使得用户可以根据需求读取从存储数据的核苷酸序列中读取特定的一部分数据。读取特定的一部分数据。读取特定的一部分数据。

【技术实现步骤摘要】
基于脱氧核糖核酸技术的数据编码方法及解码方法


[0001]本申请实施例涉及数据存储
,尤其涉及一种基于脱氧核糖核酸技术的数据编码方法、解码方法、相关装置及系统。

技术介绍

[0002]随着时代的发展,全球数据总量越来越大,在不久的将来,数据总量将超过硬盘等存储介质的承受能力。
[0003]近年来,诞生了DNA存储技术。DNA存储技术是指将数据转换成脱氧核糖核酸(deoxyribonucleic acid,DNA)的碱基序列,然后基于转换后的碱基序列人工合成DNA序列,从而实现数据的存储。
[0004]DNA存储技术具有以下优点:单位质量的DNA约有1021个碱基,可存储455EB数据,此数据量为全球一年数据总量的1/4;单位体积的DNA可存储的数据为整个互联网的33倍;DNA单位体积的存储密度是硬盘和存储器的存储密度的106倍,是闪存的存储密度的103倍;DNA的存储时长至少为硬盘、闪存的存储时长的10倍。
[0005]另外,对于存储有数据的DNA序列,还可以通过聚合酶链反应(Polymerase Chain Re本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于脱氧核糖核酸技术的数据编码方法,其特征在于,所述方法包括:对目标数据编码,以得到M条第一碱基序列,其中,所述目标数据包括M段第一子数据,一段所述第一子数据对应一条所述第一碱基序列,M为大于1的正整数;获取所述M段第一子数据的M个第一索引和所述目标数据的第二索引,其中,所述第二索引为所述第一索引的一部分,一个所述第一索引对应一段所述第一子数据;对M个所述第一索引编码,以得到M条第二碱基序列,其中,一条所述第二碱基序列对应一条所述第一碱基序列;基于所述M条第一碱基序列和所述M条第二碱基序列得到N条第三碱基序列,其中,一条所述第三碱基序列是基于一条所述第二碱基序列,以及该条所述第二碱基序列的对应的第一碱基序列得到的,其中,N为大于或等于M的整数;基于所述N条所述第三碱基序列,合成N条第一核苷酸序列,其中,一条所述第一核苷酸序列对应一条所述第三碱基序列。2.根据权利要求1所述的方法,其特征在于,一条所述第一核苷酸序列的引物对应一条所述第三碱基序列中基于所述第二碱基序列得到的部分。3.根据权利要求2所述的方法,其特征在于,其特征在于,所述一条所述第三碱基序列中基于所述第二碱基序列得到的部分包括第一碱基子序列和第二碱基子序列,所述第一核苷酸序列的引物包括第一端引物和第二端引物;所述第一端引物对应所述第一碱基子序列,所述第二端引物对应所述第二碱基子序列。4.根据权利要求3所述的方法,其特征在于,所述第一索引是由多个子索引组成;所述第二碱基序列包括第三碱基子序列和第四碱基子序列,所述第三碱基子序列是由所述多个子索引中的至少一个子索引编码得到的,所述第四碱基子序列是由所述多个子索引中的至少一个子索引编码得到的,且编码得到所述第三碱基子序列的所述子索引的数量与编码得到所述第四碱基子序列的所述子索引的数量相差至多一个;所述第一碱基子序列是基于所述第三碱基子序列得到的,所述第二碱基子序列是基于所述第四碱基子序列得到的。5.根据权利要求3或4所述的方法,其特征在于,所述第一碱基子序列包括第一子序列和第二子序列,所述第一子序列是由所述第三碱基子序列得到的,所述第二子序列用于使得所述第一碱基子序列的长度大于第一长度。6.根据权利要求3至5中任意一项所述的方法,其特征在于,所述第二碱基子序列包括第三子序列和第四子序列,所述第三子序列是由所述第四碱基子序列得到的,所述第四子序列用于使得所述第二碱基子序列的长度大于第二长度。7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述基于所述M条第一碱基序列和所述M条第二碱基序列得到N条第三碱基序列包括:将第一目标碱基序列划分为P条第五碱基子序列,所述第一目标碱基序列为所述M条第一碱基序列中的一条,其中,P为大于1且小于N的整数;基于所述P条第五碱基子序列和第二目标碱基序列得到P条长度小于第三长度的第三碱基序列,P条第三碱基序列属于所述N条第三碱基序列;所述P条第三碱基序列中的一条第三碱基序列是基于一条所述第五碱基子序列、地址
碱基序列以及所述第二目标碱基序列得到的,所述地址碱基序列用于指示所述第五碱基子序列在所述第一目标碱基序列中的位置,所述第二目标碱基序列为所述M条第二碱基序列中与所述第一目标碱基序列对应的一条。8.根据权利要求7所述的方法,其特征在于,在所述基于所述P条第五碱基子序列和第二目标碱基序列得到P条长度小于第三长度的第三碱基序列之后,所述编码方法还包括:基于所述P条第三碱基序列和所述第二目标碱基序列得到Q条第三碱基序列,所述Q条第三碱基序列中的每条第三碱基序列包括所述第二目标碱基序列和第一纠错碱基序列,其中,所述第一纠错碱基序列是基于所述P条第三碱基序列得到的,且用于对所述P条第三碱基序列的纠错,所述Q为正整数且Q和P的和小于N。9.根据权利要求1至8中任意一项所述的方法,其特征在于,所述第三碱基序列还包括第二纠错碱基序列,所述第二纠错碱基序列是基于所述第三碱基序列中除所述第二纠错碱基序列外的其他部分得到的,且用于所述第三碱基序列中除所述第二纠错碱基序列外的其他部分的纠错。10.根据权利要求1至9中任意一项所述的编码方法,其特征在于,所述方法还包括:获取K段第二子数据的V个第三索引,一段所述第二子数据是由H段所述第一子数据组成,一个所述第三索引对应一段所述第二子数据,所述第二索引为所述第三索引的一部分,一段所述第二子数据的第三索引为组成该段第二子数据的任意一段第一子数据的第一索引的一部分,其中,V为大于1的整数,H为大于1且小于M的整数。11.一种基于脱氧核糖核酸技术的数据解码方法,其特征在于,所述方法包括:获取目标子数据的目标索引,其中,所述目标子数据为M段第一子数据中的一段,所述M段第一子数据包含于目标数据中,所述目标索引为M段第一子数据的M个第一索引中的一个,一段所述第一子数据对应一个所述第一索引,所述目标数据的第二索引为所述第一索引的一部分,M为大于1的正整数;对所述目标索引编码,以得到目标碱基序列;基于所述目标碱基序列和N条第一核苷酸序列得到X条第三碱基序列,其中,所述N条第一核苷酸序列是由N条所述第三碱基序列合成,一条所述第一核苷酸序列对应一条所述第三碱基序列,所述N条所述第三碱基序列是基于M条第一碱基序列和M条第二碱基序列得到,一条所述第二碱基序列对应一条所述第一碱基序列,一条所述第三碱基序列是基于一条所述第二碱基序列,以及该条所述第二碱基序列的对应的第一碱基序列得到的,所述M条第二碱基序列是对所述M个第一索引编码得到的,所述M条第一碱基序列是对所述目标数据编码得到的,一条所述第一碱基序列对应一段所述第一子数据,所述X条第三碱基序列属于所述N条所述第三碱基序列且是基于所述目标碱基序列得到的,所述目标碱基序列为所述M条第二碱基序列中的一条,X为小于N的正整数;从所述X条第三碱基序列中得到所述目标碱基序列对应的第一碱基序列;对所述目标碱基序列对应的第一碱基序列解码,以得到所述第一子数据。12.根据权利要求11所述的方法,其特征在于,一条所述第一核苷酸序列的引物对应一条所述第三碱基序列中基于所述第二碱基序列得到的部分;所述基于所述目标碱基序列和N条第一核苷酸序列得到X条第三碱基序列包括:基于所述目标碱基序列合成目标引物,所述目标碱基序列与所述目标引物的碱基序列
互补;基于所述目标引物和N条第一核苷酸序列进行聚合酶链式反应,以得到X条第二核苷酸序列,所述X条第二核苷酸序列是基于所述目标引物和所述N条第一核苷酸序列中的X条得到;基于所述X条第二核苷酸序列的X条测序结果得到X条第三碱基序列,一条所述测序结果对应一条...

【专利技术属性】
技术研发人员:毕昆吴瑾高雅琨陆祖宏葛芹玉顾万君
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1