DNA编码方法、解码方法、装置、终端设备及介质制造方法及图纸

技术编号:35516226 阅读:15 留言:0更新日期:2022-11-09 14:33
本申请适用于数据存储技术领域,提供了一种DNA编码方法、解码方法、装置、终端设备及介质,其中DNA编码方法包括:将待存储的原始数据转换为第一四进制序列;根据预设的四进制字符与碱基的映射关系,对第一四进制序列进行编码转换得到碱基序列;根据碱基序列得到存储有原始数据的DNA序列。本申请能提升编码速度。本申请能提升编码速度。本申请能提升编码速度。

【技术实现步骤摘要】
DNA编码方法、解码方法、装置、终端设备及介质
[0001]本申请要求于2022年03月14日提交国家知识产权局、申请号为202210248376.9、申请名称为“DNA编码方法、解码方法、装置、终端设备及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请属于数据存储
,尤其涉及一种DNA编码方法、解码方法、装置、终端设备及介质。

技术介绍

[0003]互联网的发展使得人类社会的信息呈现爆炸式增长,然而现有的存储介质已经快被消耗殆尽。基于此,相关研究人员将目标转向了脱氧核糖核酸(DNA,DeoxyriboNucleic Acid)存储。现有的DNA编码方法是以硅基存储的01二进制作为基础,将待存储的信息转换为01二进制数,再进一步编码为DNA序列。其中由于在编码过程中需要顾及单碱基重复的问题,因此二进制数需经过一系列复杂运算处理(如异或运算、随机函数映射、条件过滤等)才能编码为DNA序列。而由于复杂运算的耗时较长,造成编码速度不理想。

技术实现思路

[0004]本申请实施例提供了一种DNA编码方法、解码方法、装置、终端设备及介质,可以解决DNA编码速度不理想的问题。
[0005]第一方面,本申请实施例提供了一种DNA编码方法,包括:
[0006]将待存储的原始数据转换为第一四进制序列;
[0007]根据预设的四进制字符与碱基的映射关系,对所述第一四进制序列进行编码转换得到第一碱基序列;
[0008]根据所述第一碱基序列得到存储有所述原始数据的DNA序列。
[0009]可选的,将待存储的原始数据转换为第一四进制序列,包括:
[0010]当待存储的原始数据为文字时,按照预设字符编码表对文字进行编码,得到编码序列;
[0011]根据预设字符编码表中的编码字符与四进制字符之间的映射关系,将编码序列转换为第一四进制序列。
[0012]可选的,将待存储的原始数据转换为第一四进制序列,包括:
[0013]当待存储的原始数据为图片时,获取图片中各像素点的RGB值;
[0014]按照预设的像素点排列顺序对各像素点的RGB值进行排序,得到十进制序列;
[0015]根据十进制字符与四进制字符之间的映射关系,将十进制序列转换为第一四进制序列。
[0016]可选的,将待存储的原始数据转换为第一四进制序列,包括:
[0017]当待存储的原始数据为音频时,根据预设采样率对音频进行采样处理,得到多个
采样数据;
[0018]获取每个采样数据的振幅值;
[0019]根据多个采样数据的采样顺序对获取到的振幅值进行排序,得到十进制序列;
[0020]根据十进制字符与四进制字符之间的映射关系,将十进制序列转换为第一四进制序列。
[0021]可选的,第一四进制序列包括音频对应的第二四进制序列和画面对应的第三四进制序列;将待存储的原始数据转换为第一四进制序列,包括:
[0022]当待存储的原始数据为视频时,提取视频的音频以及视频的每帧图片;
[0023]对提取到的音频进行处理,得到音频对应的第二四进制序列;
[0024]对提取到的每帧图片进行处理,得到提取到的每帧图片对应的第四四进制序列;
[0025]按照提取到的各帧图片在视频中的播放顺序,对各帧图片对应的第四四进制序列进行排序,得到画面对应的第三四进制序列。
[0026]可选地,所述根据预设的四进制字符与碱基的映射关系,对所述第一四进制序列进行编码转换得到第一碱基序列,包括:
[0027]依照设定分割长度,对所述第一四进制序列进行分割,得到多个短序列;
[0028]根据预设的四进制字符与碱基的映射关系,对每一所述短序列进行转码,得到多个第二碱基序列;
[0029]根据多个所述第二碱基序列确定所述第一碱基序列。
[0030]可选地,所述根据预设的四进制字符与碱基的映射关系,对每一所述短序列进行转码,得到多个第二碱基序列,包括:
[0031]统计每一所述短序列中各个四进制字符的出现频次;
[0032]根据所述出现频次和预设的理想碱基占比,分别确定每个所述短序列对应的四进制字符与碱基的目标映射关系;
[0033]根据每个所述短序列各自的所述目标映射关系,分别对所述短序列进行转换,得到多个所述第二碱基序列;所述第二碱基序列中包含用于表示所述目标映射关系的关系序列。
[0034]可选地,所述根据所述出现频次和预设的理想碱基占比,分别确定每个所述短序列对应的四进制字符与碱基的目标映射关系,包括:
[0035]根据所述出现频次,统计不同的所述四进制字符在每一所述短序列中的数量占比;
[0036]将所述数量占比与不同碱基在碱基序列中的所述理想碱基占比进行匹配,建立每一所述短序列中所述四进制字符与所述碱基间的配对组合;
[0037]将每一所述配对组合关联的四进制字符与碱基之间建立所述目标映射关系。
[0038]可选地,所述统计每一所述短序列中各个四进制字符的出现频次,包括:
[0039]依照所述短序列的分割顺序,对每一所述短序列添加相同位数长度的四进制数索引序列;
[0040]对添加四进制数索引序列后的每一所述短序列,分别统计各个所述四进制字符的所述出现频次。
[0041]可选的,根据第一碱基序列得到存储有原始数据的DNA序列,包括:
[0042]在第一碱基序列中每间隔M个碱基的位置,插入N个碱基,得到存储有原始数据的DNA序列;
[0043]其中,第一碱基序列中与N个碱基中的第一个碱基相邻的碱基不同;第一碱基序列中与N个碱基中的第N个碱基相邻的碱基不同,且N个碱基中相邻位置的碱基不同,M和N均为大于0的整数。
[0044]即,其中,所述第一碱基序列中包含与所述N个碱基中的第一个碱基相邻的第一碱基,所述第一碱基与所述第一个碱基不同;所述第一碱基序列中包含与所述N个碱基中的第N个碱基相邻的第二碱基,所述第二碱基与所述第N个碱基不同;且所述N个碱基中相邻位置的碱基不同,M和N均为大于0的整数。
[0045]可选地,所述在所述第一碱基序列中每间隔M个碱基的位置,插入N个碱基,得到存储有所述原始数据的DNA序列,包括:
[0046]在所述第一碱基序列中每间隔M个碱基的位置,插入N个碱基,并统计得到在插入N个碱基后的所述第一碱基序列中目标碱基的占比;
[0047]若统计得到的所述目标碱基的占比不满足理想碱基占比,则返回执行所述在所述第一碱基序列中每间隔M个碱基的位置,插入N个碱基的步骤,直至统计得到的所述目标碱基的占比满足所述理想碱基占比,得到存储有所述原始数据的DNA序列。
[0048]第二方面,本申请实施例提供了一种DNA解码方法,包括:
[0049]确定需解码的DNA序列;
[0050]根据所述DNA序列得到第一碱基序列;...

【技术保护点】

【技术特征摘要】
1.一种DNA编码方法,其特征在于,包括:将待存储的原始数据转换为第一四进制序列;根据预设的四进制字符与碱基的映射关系,对所述第一四进制序列进行编码转换得到第一碱基序列;根据所述第一碱基序列得到存储有所述原始数据的DNA序列。2.根据权利要求1所述的方法,其特征在于,所述将待存储的原始数据转换为第一四进制序列,包括:当待存储的原始数据为文字时,按照预设字符编码表对所述文字进行编码,得到编码序列;根据所述预设字符编码表中的编码字符与四进制字符之间的映射关系,将所述编码序列转换为第一四进制序列。3.根据权利要求1所述的方法,其特征在于,所述将待存储的原始数据转换为第一四进制序列,包括:当待存储的原始数据为图片时,获取所述图片中各像素点的RGB值;按照预设的像素点排列顺序对所述各像素点的RGB值进行排序,得到十进制序列;根据十进制字符与四进制字符之间的映射关系,将所述十进制序列转换为第一四进制序列。4.根据权利要求1所述的方法,其特征在于,所述将待存储的原始数据转换为第一四进制序列,包括:当待存储的原始数据为音频时,根据预设采样率对所述音频进行采样处理,得到多个采样数据;获取每个所述采样数据的振幅值;根据所述多个采样数据的采样顺序对获取到的振幅值进行排序,得到十进制序列;根据十进制字符与四进制字符之间的映射关系,将所述十进制序列转换为第一四进制序列。5.根据权利要求1所述的方法,其特征在于,所述第一四进制序列包括音频对应的第二四进制序列和画面对应的第三四进制序列;所述将待存储的原始数据转换为第一四进制序列,包括:当待存储的原始数据为视频时,提取所述视频的音频以及所述视频的每帧图片;对提取到的所述音频进行处理,得到所述音频对应的第二四进制序列;对提取到的每帧图片进行处理,得到提取到的每帧图片对应的第四四进制序列;按照提取到的各帧图片在所述视频中的播放顺序,对所述各帧图片对应的第四四进制序列进行排序,得到画面对应的第三四进制序列。6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据预设的四进制字符与碱基的映射关系,对所述第一四进制序列进行编码转换得到第一碱基序列,包括:依照设定分割长度,对所述第一四进制序列进行分割,得到多个短序列;根据预设的四进制字符与碱基的映射关系,对每一所述短序列进行转码,得到多个第二碱基序列;根据多个所述第二碱基序列确定所述第一碱基序列。
7.根据权利要求6所述的方法,其特征在于,所述根据预设的四进制字符与碱基的映射关系,对每一所述短序列进行转码,得到多个第二碱基序列,包括:统计每一所述短序列中各个四进制字符的出现频次;根据所述出现频次和预设的理想碱基占比,分别确定每个所述短序列对应的四进制字符与碱基的目标映射关系;根据每个所述短序列各自的所述目标映射关系,分别对所述短序列进行转换,得到多个所述第二碱基序列;所述第二碱基序列中包含用于表示所述目标映射关系的关系序列。8.根据权利要求7所述的方法,其特征在于,所述根据所述出现频次和预设的理想碱基占比,分别确定每个所述短序列对应的四进制字符与碱基的目标映射关系,包括:根据所述出现频次,统计不同的所述四进制字符在每一所述短序列中的数量占比;将所述数量占比与不同碱基在碱基序列中的所述理想碱基占比进行匹配,建立每一所述短序列中所述四进制字符与所述碱基间的配对组合;将每一所述配对组合关联的四进制字符与碱基之间建立所述目标映射关系。9.根据权利要求7所述的方法,其特征在于,所述统计每一所述短序列中各个四进制字符的出现频次,包括:依照所述短序列的分割顺序,对每一所述短序列添加相同位数长度的四进制数索引序列;对添加四进制数索引序列后的每一所述短序列,分别统计各个所述四进制字符的所述出现频次。10.根据权利要求1所述的方法,其特征在于,所述根据所述第一碱基序列得到存储有所述原始数据的DNA序列,包括:在所述第一碱基序列中每间隔M个碱基的位置,插入N个碱基,得到存储有所述原始数据的DNA序列;其中,所述第一碱基序列中包含与所述N个碱基中的第一个碱基相邻的第一碱基,所述第一碱基与所述第一个碱基不同;所述第一碱基序列中包含与所述N个碱基中的第N个碱基相邻的第二碱基,所述第二碱基与所述第N个碱基不同;且所述N个碱基中相邻位置的碱基不同,M和N均为大于0的整数。11.根据权利要求10所述的方法,其特征在于,所述在所述第一碱基序列中每间隔M个碱基的位置,插入N个碱基,得到存储有所述原始数据的DNA序列,包括:在所述第一碱基序列中每间隔M个碱基的位置,插入N个碱基,并统计得到在插入N个碱基后的所述第一碱基序列中目标碱基的占比;若统计得到的所述目标碱基的占比不满足理想碱基占比,则返回执行所述在所述第一碱基序列中每间隔M个碱基的位置,插入N个碱基的步骤,直至统计得到的所述目标碱基的占比满足所述理想碱基占比,得到存储有所述原始数据的DNA序列。12.一种DNA解码方法,其特征在于,包括:确定需解码的DNA序列;根据所述DNA序列得到第一碱基序列;根据预设的四进制字符与碱基的映射关系,对所述第一碱基序列进行解码得到第一四进制序列;
对所述第一四进制序列进行转换,得到所述DNA序列对应的原始数据。13.根据权利要求12所述的方法,其特征在于,所述对所述第一四进制序列进行转换,得到所述DNA序列对应的原始数据,包括:当所述DNA序列所存...

【专利技术属性】
技术研发人员:戴俊彪强薇黄小罗
申请(专利权)人:深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1