当前位置: 首页 > 专利查询>天津大学专利>正文

一种DNA数据存储高效编码电路制造技术

技术编号:38582384 阅读:7 留言:0更新日期:2023-08-26 23:26
本发明专利技术公开了一种DNA数据存储高效编码电路,包括:控制模块输出的使能信号连接进制转换模块、旋转编码模块和线性循环码编码模块,用于控制数据输入、输出请求的发送以及其余各模块的当前状态显示。进制转换模块输出的32位十五进制数连接旋转编码模块,用于将31位二进制数据转换为32位十五进制数。旋转编码模块输出的32位十五进制数连接旋转编码模块,用于将32位十五进制数据经循环移位和累加操作转化为适合DNA碱基合成的二进制数据。线性循环码编码模块用于将不断输入的32位数据经串并转换、合并等方式输入线性循环码编码单元得到具有一定纠错能力的编码码字。本发明专利技术提出的DNA存储专用编码算法硬件电路可以在实现高数据吞吐率的同时,占用较少的硬件逻辑资源。占用较少的硬件逻辑资源。占用较少的硬件逻辑资源。

【技术实现步骤摘要】
一种DNA数据存储高效编码电路


[0001]本专利技术涉及DNA数据存储的生物信息领域,尤其涉及一种高通量DNA数据存储高效编码电路。

技术介绍

[0002]当今世界已经完全进入大数据时代,一切生活相关的活动都涉及数据的存储和处理。近年来随着信息技术的快速发展,人类生活的方方面面都逐渐实现数字化转变,现代数据呈现指数级增长状况,远远超过了现有存储容量的增长速度。然而现有的存储介质,例如:磁性存储(例如:磁带或硬盘驱动器)、光学存储(例如蓝光)及固态存储(例如闪存),已不能满足日益增长的存储容量的需求。基于磁、光以及集成电路的现代数据存储介质虽然已经取得了飞速的发展,但它们的存储体积密度已经达到10
10
~10
12
bit/cm3,接近极限。与之相比,DNA存储使用尽可能少的分子或原子来存储一个比特的信息,具有更高密度存储潜力,例如大肠杆菌染色体DNA的存储体积密度据估计达约10
19
bit/cm3,约比目前的最佳存储介质高6个数量级。更重要的是,随着合成生物学的快速发展,以高通量DNA合成技术和人工合成染色体工作为代表,标志着人类对DNA的设计、合成、编辑和读取能力进入到一个崭新的时代。在此背景下,以DNA分子为存储介质进行高密度信息存储成为一个非常有前景的研究方向,得到了学术界和产业界越来越多的关注。
[0003]DNA存储数字信息是利用人工合成的脱氧核苷酸(DNA)存储数字信息。DNA存储信息,具有存储密度高、不受电磁干扰、长期高可靠和维护低成本等优势。利用DNA存储数字信息的原理是:数字化信息在二进制码流、四进制碱基序列和实际DNA片段之间的转化与流动。目前,基于此原理的技术流程主要包括两个方面:1、信息写入,该部分主要包括DNA编码和DNA合成两个部分。DNA编码是通过计算机算法将文本、图片或视频等信息的二进制码流进行编码,得到A/T/C/G组成的碱基序列。随后进行第二步:DNA合成,将信息数据写入写入对应的DNA片段,并对其进行多模式保存;2、信息读取,该部分包括DNA信息检索及测序和DNA信息编码两个部分。当接收到数据读取请求后,相应的DNA样本库需要被物理检索和采样。选定一个样本后,下一步对其进行测序,产生一组DNA序列信息。随后进行识别、组装、纠错与解码等,将存储在DNA介质中的数据还原成原始数字化信息,得到原始文本、图片、声音和视频。
[0004]当前DNA信息存储的主要挑战为单位存储成本高,信息读写速度慢且稳定性不高,无法高效对接现有信息系统。为提高合成DNA的稳定性,就必须基于DNA分子生物学约束进行合适的DNA存储编码方式的选择。对此,多个信息领域的信息编码方式被引入到DNA存储编码的范畴。欧洲分析生物学实验室的Goldman教授通过添加四倍冗余和简单的校验机制实现了数据的可靠恢复,但由于是四倍冗余的设计,该方法实现的逻辑密度和成本控制都不理想。苏黎世联邦理工大学Grass团队引入了里德

所罗门(RS)纠删码,解决了寡核苷酸链池中部分丢失以及片段内碱基替代错误,在保证数据可靠恢复的同时使数据部分的逻辑密度超过了1bit/nt。Erlich等引入了喷泉码,更好地适配了海量片段化的存储模式,将数
据部分的逻辑密度进一步提高到1.57bit/nt。另一思路,Anavy等和Choi分别使用了简并碱基来拓展DNA的多进制表示方法,将逻辑密度推升到了2bit/nt以上,但是此方法也面临需要更高测序覆盖度的问题。除此之外,在未来引入非天然碱基拓展存储单元,可进一步提高逻辑密度。
[0005]设计DNA编码算法需要考虑两个重要因素:(1)对信息传递需要进行纠错设计;(2)实现简单而直接的数据检索。不同于传统存储介质,DNA存储在合成和测序过程中会引入碱基的插入和缺失错误,这使得编码更具有挑战性。基于此,DAN数据编码和解码必须考虑纠错码的设计和数据检索编码的设计。针对该问题,Press等提出了基于哈希编码和贪婪穷举解码的编码方案,该方案能够在单分子拷贝的情况下纠正插入和缺失错误,但需要较高的冗余度来实现纠错,且解码复杂度较高。Sabary等提出了几种动态的DNA重构算法,可直接用于较高错误率下的DNA序列重建。天津大学Song等设计了一个基于德布莱英图(De Bruijn Graph)的DNA序列高鲁棒重建算法,可以从包括大量插入缺失和替代错误的多序列快速重建无错误的DNA片段序列。该方法可以从低质量的PCR产物(序列长度完全错误)中可靠地读取数据,实现高鲁棒读取。
[0006]虽然近几年DNA存储得到了较大的发展,但现阶段DNA存储并未实现大规模的应用,其主要原因有:(1)成本高,目前DNA合成一个碱基的费用约为1.04元(根据合成要求可能会有一定偏差),用DNA存储1TB内容的成本约为硬盘的七千万倍;(2)耗时长,将信息存入DNA中需要历经编码和DNA合成,信息读取需经历DNA测序和解码。一方面,DNA合成及测序需花费大量时间,并且碱基序列越长,合成和测序耗费的时间就越长。另一方面,DNA数据存储编码大都基于通用处理平台完成,而由于通用处理平台串行操作等原因,DNA存储编码的速度慢、处理通量低,难以应对大规模DNA数据存储的应用场景。预估计,当前DNA数据存储的总体写入吞吐量可能是每秒千字节的级别。在10年内,与主流云存档存储系统竞争的系统将需要提供每秒十亿字节的读写吞吐量。为此,采用满足DNA存储需求并适合硬件实现的算法,设计高通量DNA存储专用编码芯片成为一种趋势。

技术实现思路

[0007]本专利技术提供了一种高通量DNA数据存储高效编码电路,本专利技术解决了当前DNA数据存储中信息编码速度慢、处理通量低等问题,详见下文描述:
[0008]一种DNA数据存储高效编码电路,所述电路包括:控制模块、进制转换模块,旋转编码模块以及线性分组码编码模块,其中:
[0009]控制模块,用于协调控制其余各模块输入、输出请求的发送;
[0010]进制转换模块,用于将31位二进制数据转换为32位十五进制数;
[0011]旋转编码模块,用于将十五进制数据转化为适合DNA碱基合成的二进制数据;
[0012]线性分组码编码模块,用于对不断输入的32位数据进行线性分组码编码得到具有纠错能力的码字。
[0013]其中,所述控制模块用于协调控制其余各模块输入、输出请求的发送,具体实现过程如下:
[0014]所述控制模块包括状态控制单元和状态显示单元;所述控制状态单元包括一个计数器和一个状态选择器,其中,所述计数器输出的计数值连接所述状态选择器,最后通过计
数值控制状态选择器输出不同的状态;
[0015]所述状态显示单元包括四种不同的工作状态和一个选通器,当状态选择器输出不同的选择信号时,选通器输出不同的工作状态来控制其余各模块的工作和结束。
[0016]其中,所述进制转化模块用于将31位二进制数据转换为32位十五进制数,具体实现过程如下:
[0017]所述进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种DNA数据存储高效编码电路,其特征在于,所述电路包括:控制模块、进制转换模块,旋转编码模块以及线性分组码编码模块,其中:控制模块,用于协调控制其余各模块输入、输出请求的发送;进制转换模块,用于将31位二进制数据转换为32位十五进制数;旋转编码模块,用于将十五进制数据转化为适合DNA碱基合成的二进制数据;线性分组码编码模块,用于对不断输入的32位数据进行线性分组码编码得到具有纠错能力的码字。2.根据权利要求1所述的一种DNA数据存储高效编码电路,其特征在于,所述控制模块用于协调控制其余各模块输入、输出请求的发送,具体实现过程如下:所述控制模块包括状态控制单元和状态显示单元;所述控制状态单元包括一个计数器和一个状态选择器,其中,所述计数器输出的计数值连接所述状态选择器,最后通过计数值控制状态选择器输出不同的状态;所述状态显示单元包括四种不同的工作状态和一个选通器,当状态选择器输出不同的选择信号时,选通器输出不同的工作状态来控制其余各模块的工作和结束。3.根据权利要求1所述的一种DNA数据存储高效编码电路,其特征在于,所述进制转化模块用于将31位二进制数据转换为32位十五进制数,具体实现过程如下:所述进制转换模块包括二进制转十六进制单元、十六进制预转十五进制单元、十五进制进位合并单元;所述二进制转十六进制单元是将31位二进制数在最高位添零,四比特为一组,分成八组,每一组即为十六进制下的一位,十六进制中的每一位用H
i
(i∈[0,7],i∈Z)表示;所述十六进制预转十五进制单元是将十六进制的基数16改写成(15+1)的形式,使得十五进制中的每一位P
j
(j∈[0,7],j∈Z)用十六进制组成的多项式表示;所述十五进制进位合并单元是对十五进制数各位之间做最终的进位运算,得到十五进制数P7P6P5P4P3P2P1P0。4.根据权利要求3所述的一种DNA数据存储高效编码电路,其特征在于,所述二进制转十六进制单元是将31位二进制数在最高位添零,四比特为一组,分成八组,每一组即为十六进制下的一位,十六进制中的每一位用H
i
(i∈[0,7],i∈Z)表示;具体实现过程如下,利用串并转化的方法将31位串行输入的二进制数据以4比特为一组,按时序输出到表示十六进制的4位寄存器(H0~H7)中,对于最后输出的3比特数据,通过在寄存器H7的最高位填0实现十六进制下的4比特输出。5.根据权利要求3所述的一种DNA数据存储高效编码电路,其特征在于,所述十六进制预转十五进制单元是将十六进制的基数16改写成(15+1)的形式,使得十五进制中的每一位P
j
(j∈[0,7],j∈Z)用十六进制组成的多项式表示,具体实现过程如下:(2.3.1)十五进制每一位均改写成如下形式:P
i
=23·
clk1+22·
clk2+21·
clk3+20·
clk4(2.3.2)十六进制预转十五进制单元由八个相同且独立的处理单元构成,通过处理单元内部的移位和累加操作实现32位十六进制预转十五进制;(2.3.2)其中,处理单元内部包括两个加法器、一个移位寄存器、一个二路选通器以及一个计数器;(2.3.3)依据(2.3.1)所述形式,当第一个时钟上升沿到来时,数据clk1进入处理单元,
处理单元中的加法器将数据clk1和移位寄存器中的0相...

【专利技术属性】
技术研发人员:陈为刚郭健胡文杰张洪瑞李佳蓉
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1