DNA数据的存储方法、装置、设备及可读存储介质制造方法及图纸

技术编号:31310539 阅读:22 留言:0更新日期:2021-12-12 21:40
本申请涉及数据存储技术领域,提供了一种DNA数据的存储方法、装置、设备及可读存储介质领域。该方法,包括:获取与目标数据的二进制序列对应的碱基序列;对碱基序列进行分割,得到S个序列单元,且每个序列单元包括多个分割的序列片段,S个序列单元共含有K个序列片段,且序列片段的长度为n;利用预设的索引信息对K个序列片段和S个序列单元进行标记,得到K个标记序列片段和S个标记序列单元,其中,索引信息包括用于表示S个序列单元在碱基序列中的排列顺序的第一检索序列,和用于表示属于同一序列单元中的多个序列片段在序列单元中的排列顺序的第二检索序列。本申请提供的方法,可以实现大规模的数据信息在DNA中的存储。规模的数据信息在DNA中的存储。规模的数据信息在DNA中的存储。

【技术实现步骤摘要】
DNA数据的存储方法、装置、设备及可读存储介质


[0001]本申请属于数据存储
,具体涉及一种DNA数据的存储方法、装置、设备及可读存储介质。

技术介绍

[0002]人工智能及大数据时代的发展对数据存储需求越来越高,迫切需要存储密度高、存储时间长、维护成本低的新型存储介质。脱氧核糖核酸(DeoxyriboNucleic Acid,DNA)作为一种近年来发展起来的信息存储介质,被认为是未来信息存储最有潜力的介质之一。
[0003]DNA分子具有四种碱基,它们分别是:腺嘌呤(Adenine,A)、胞嘧啶(Cytosine,C)、鸟嘌呤(Guanine,G)和胸腺嘧啶(Thymine,T)。基于DNA的数据存储技术是利用上述四种碱基序列来表示二进制“0”和“1”组成的数据系列。相比较于传统存储介质,DNA数据存储具有存储密度高,存储时间久,维护成本低,生物相容性好的特点。如:1g DNA能够存储超过百万部高清电影,其数据存储密度是目前传统硬盘等硅基存储介质7个数量级以上;同时,DNA能够稳定存储数据千年以上,是现有存储介质存储时间的百倍以上。此外,DNA维护成本低,存百年的维护费用仅是目前现有介质的万分之一。
[0004]DNA数据存储流程通常包含以下步骤:(1)从图片、视频、文本等计算机信息中提取二进制信息;(2)根据二进制与碱基A、T、C、G之间的预设对应关系,将二进制序列信息转换为由碱基A、T、C、G编码形成的、存储有数据信息的A/T/C/G序列(即DNA序列);(3)采用DNA合成技术或其他技术将编码的A/T/C/G序列转换为DNA化学多聚物分子,并存储在合适的环境中。之后,当需要获取存储的数据时,则可以执行以下步骤:(4)利用DNA测序技术,将存储的DNA化学多聚物分子解读成A/T/C/G序列;(5)利用合适的解码方式将A/T/C/G序列转换为二进制信息;(6)将二进制信息转换为图片、视频、文本等计算机信息。
[0005]其中,数据编码问题是目前的DNA数据存储方法中的核心问题。

技术实现思路

[0006]本申请实施例的目的之一在于:提供一种DNA数据的存储方法、装置、设备及可读存储介质,旨在解决DNA数据存储技术中的数据编码问题。
[0007]本申请实施例采用的技术方案是:
[0008]第一方面,提供了一种DNA数据的存储方法,包括:
[0009]获取与目标数据的二进制序列对应的碱基序列;
[0010]对所述碱基序列进行分割,得到S个序列单元,且每个序列单元包括多个分割的序列片段,其中,S个所述序列单元共含有K个所述序列片段,且所述序列片段的长度为n,n、S和K均为大于或者等于2的整数;
[0011]利用预设的索引信息对K个所述序列片段和S个所述序列单元进行标记,得到K个标记序列片段和S个标记序列单元,其中,所述索引信息包括用于表示S个所述序列单元在所述碱基序列中的排列顺序的第一检索序列,和用于表示属于同一所述序列单元中的多个
所述序列片段在所述序列单元中的排列顺序的第二检索序列,K个所述标记序列片段用于合成存储有所述目标数据的K个第一DNA分子。
[0012]在一个实施例中,利用所述第二检索序列标记属于同一所述序列单元中的多个所述序列片段的方式,包括:
[0013]在所述序列片段的任一侧拼接第二检索序列,或
[0014]在所述序列片段的两侧同时拼接检索碱基组,两侧的所述检索碱基组形成所述第二检索序列。
[0015]在一个实施例中,所述第一检索序列包括i条DNA序列片段,i为大于或等于1的整数,且每条所述DNA序列片段包括用作索引标志的第一碱基序列和用于标示所述序列单元编号的第二碱基序列。
[0016]在一个实施例中,第一检索序列和第二检索序列对应的DNA序列片段利用DNA合成技术获得。示例性的,DNA合成技术包括但不限于酶法合成、亚磷酰胺合成等。
[0017]在一个实施例中,第一检索序列和第二检索序列对应的DNA序列片段可以从预先合成的DNA通用分子库中扩增获得,比如PCR技术等。
[0018]在一个实施例中,所述存储方法还包括:
[0019]将K个所述标记序列片段合成存储有所述目标数据的K个第一DNA分子后,将K个所述第一DNA分子存储在S个第一物理空间,其中,同属于一个所述序列单元的所述标记序列片段对应的所述第一DNA分子存储在同一个所述第一物理空间,不属于同一个所述序列单元的所述标记序列片段对应的所述第一DNA分子存储在不同的所述第一物理空间。
[0020]在一个实施例中,s个所述第一物理空间集成在一个DNA硬盘中。
[0021]在一个实施例中,所述存储方法还包括:
[0022]将第二DNA分子存储在与所述第一物理空间对应的第二物理空间,所述第二DNA分子存储有所述索引信息。
[0023]在一个实施例中,K个所述第一DNA分子的解码方法,包括:
[0024]对每个所述第一物理空间中存储的多个所述第一DNA分子进行测序,得到多个所述标记序列片段;根据所述第二检索序列对属于同一所述标记序列单元的每个所述标记序列片段对应的所述序列片段进行拼接,得到所述序列单元;
[0025]根据所述第一检索序列将得到的S个所述序列单元进行拼接,得到所述碱基序列;
[0026]将所述碱基序列转换为所述目标数据。
[0027]第二方面,提供了一种DNA数据存储装置,包括数据处理模块,
[0028]所述数据处理模块,用于获取与目标数据的二进制序列对应的碱基序列;对所述碱基序列进行分割,得到K个长度为n的序列片段,K个所述序列片段划分为S个序列单元,S和K均为大于或者等于2的整数;利用预设的索引信息对K个所述序列片段和S个所述序列单元进行标记,得到K个标记序列片段和S个标记序列单元,其中,所述索引信息包括用于表示S个所述序列单元在所述碱基序列中的排列顺序的第一检索序列,和用于表示属于同一所述序列单元中的多个所述序列片段在所述序列单元中的排列顺序的第二检索序列,K个所述标记序列片段用于合成存储有所述目标数据的K个第一DNA分子。
[0029]在一个实施例中,所述装置还包括:DNA合成模块,用于将K个所述标记序列片段合成存储有所述目标数据的K个第一DNA分子。
[0030]在一个实施例中,所述装置还包括:DNA分子存储模块,用于将K个所述第一DNA分子存储在S个第一物理空间,其中,同属于一个所述序列单元的所述标记序列片段对应的所述第一DNA分子存储在同一个所述第一物理空间,不属于同一个所述序列单元的所述标记序列片段对应的所述第一DNA分子存储在不同的所述第一物理空间。
[0031]在一个实施例中,所述DNA分子存储模块还用于将第二DNA分子存储在第二物理空间。
[0032]在一个实施例中,还包括DNA分子测序模块,用于对每个所述第一物理空间中存储的多个所述第一DNA分子进行测序,得到多个所述标记序列片段;所述数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.DNA数据的存储方法,其特征在于,包括:获取与目标数据的二进制序列对应的碱基序列;对所述碱基序列进行分割,得到S个序列单元,且每个序列单元包括多个分割的序列片段,其中,S个所述序列单元共含有K个所述序列片段,且所述序列片段的长度为n,n、S和K均为大于或者等于2的整数;利用预设的索引信息对K个所述序列片段和S个所述序列单元进行标记,得到K个标记序列片段和S个标记序列单元,其中,所述索引信息包括用于表示S个所述序列单元在所述碱基序列中的排列顺序的第一检索序列,和用于表示属于同一所述序列单元中的多个所述序列片段在所述序列单元中的排列顺序的第二检索序列,K个所述标记序列片段用于合成存储有所述目标数据的K个第一DNA分子。2.根据权利要求1所述的DNA数据的存储方法,其特征在于,利用所述第二检索序列标记属于同一所述序列单元中的多个所述序列片段的方式,包括:在所述序列片段的任一侧拼接第二检索序列,或在所述序列片段的两侧同时拼接检索碱基组,两侧的所述检索碱基组形成所述第二检索序列。3.根据权利要求1所述的DNA数据的存储方法,其特征在于,所述第一检索序列包括i条DNA序列片段,i为大于或等于1的整数,且每条所述DNA序列片段包括用作索引标志的第一碱基序列和用于标示所述序列单元编号的第二碱基序列。4.根据权利要求1所述的DNA数据的存储方法,其特征在于,所述存储方法还包括:将K个所述标记序列片段合成存储有所述目标数据的K个第一DNA分子后,将K个所述第一DNA分子存储在S个第一物理空间,其中,同属于一个所述序列单元的所述标记序列片段对应的所述第一DNA分子存储在同一个所述第一物理空间,不属于同一个所述序列单元的所述标记序列片段对应的所述第一DNA分子存储在不同的所述第一物理空间。5.根据权利要求4所述的DNA数据的存储方法,其特征在于,s个所述第一物理空间集成在一个DNA硬盘中。6.根据权利要求4所述的DNA数据的存储方法,其特征在于,所述存储方法还包括:将第二DNA分子存储在与所述第一物理空间对应的第二物理空间,所述第二DNA分子存储有所述索引信息。7.根据权利要求4至6任一项所述的DNA数据的存储方法,其特征在于,K个所述第一DNA分子的解码方法,包括:对每个所述第一物理空间中存储的多个所述第一DNA分子进行测序,得到多个所述标记序列片段;根据所述第二检索序列对属于同一所述标记序列单元的每个所述标记序列片段对应的所述序列片段进行拼接,得到所述序列单元;根据所述第一检索序列将得到的S个所述序列单元进行拼接,得到所述碱基序列;将所述碱基序列转换为所述目标数据。8.一种DNA数据存储装置,其特征在于,包括数据处理模块,所述数据处理模块,用于获取与目标数...

【专利技术属性】
技术研发人员:戴俊彪黄小罗
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1