当前位置: 首页 > 专利查询>天津大学专利>正文

一种伪噪声序列伴随编码的DNA存储方法技术

技术编号:38720430 阅读:8 留言:0更新日期:2023-09-08 23:15
本发明专利技术公开了一种伪噪声序列伴随编码的DNA存储方法。该方法采用分组纠错码对信息序列进行编码生成码字序列,并与伪噪声序列伴随构建两层编码序列,然后将其映射为数据DNA序列;将数据DNA序列合成、组装为中等长度DNA作为存储介质;数据读出时,对中等长度DNA进行高效建库和三代测序,从而生成测序读段;将测序读段解映射得到受损伪噪声序列,将其与已知伪噪声序列比对,确定读段对齐位置并识别插入/删节错误,然后修正码字序列并进行共识、译码。本发明专利技术具有低测序覆盖度下快速恢复数据的能力,其优势在于伪噪声序列伴随编码对插入/删节错误具有高鲁棒性,而伪噪声序列比对避免了复杂的组装操作,从而降低了处理复杂度。从而降低了处理复杂度。从而降低了处理复杂度。

【技术实现步骤摘要】
一种伪噪声序列伴随编码的DNA存储方法


[0001]本专利技术涉及DNA数据存储领域,特别涉及一种伪噪声序列伴随编码的中等长度DNA设计方法与快速读出方法。

技术介绍

[0002]随着数字信息技术的不断发展,全球数据总量呈现爆发式增加。根据国际数据公司预测,全球数据总量将在2025年高达175ZB,并在本世纪末进一步增长一个数量级。因此,对密度更高和使用寿命更长的存储介质的需求也在增加。现有的存储介质(光盘、闪存、磁带等)最大密度为103GB/mm3,且已经达到密度限制,不适合长期存储。这意味着如果需要长期存储信息,需要定期将其传输到较新的存储介质中,信息传输成本较高,并且可能面临大量的数据丢失。针对长期信息存储,需要一种高效的存储介质规避这一费力且昂贵的过程,并可以有效应对当前存储介质相关的其他限制(包括能耗和数据密度不足)。
[0003]DNA作为一种很有潜力的数据存储介质,以{A,T,C,G}四种碱基的形式存储所有遗传信息来编码,传输和保存信息。与传统存储介质相比,DNA分子在合适的储存条件下可以稳定数千年。例如,来自熊的300,000年前的线粒体DNA已被成功测序。该DNA样本保存在骨骼中,从而证明了DNA档案存储所需的功耗非常低。除了其稳定性、易于合成和较低的存储成本外,DNA还具有主要的关键优势:数据密度。根据其物理尺寸,DNA分子的理论数据密度为~4.5
×
107GB/g,比目前使用的传统存储介质可达到的密度大约高7个数量级。
[0004]然而,从DNA中提取数据的读出效率和可靠性是关键问题。传统的DNA存储介质需要进行生化反应进行数据读出,效率较低。而第三代纳米孔测序通过快速采集DNA分子通过纳米级通道时产生的电信号,可以实现快速读出。但纳米孔测序读出错误率相对较高,错误类型可能包括难以处理的插入/删除错误。插入/删节错误会导致大量替代错误的发生,需要较高的测序覆盖度才能实现数据无错恢复,对DNA数据存储系统的性能造成了严重的影响。
[0005]目前已有一些方法对DNA进行编码和读出,但存在高成本、复杂性和低效率的问题。针对短片段寡核苷酸池,Organick等利用PCR和Gibson组装技术将多个短片段寡核苷酸序列组装成大的DNA片段,使用纳米孔测序后在36
×
测序覆盖度下成功恢复了32KB的文件。该方法可以实现针对短DNA片段的三代纳米孔测序,然而在数据读出端需要复杂的样本操作,增加了成本开销并降低了可行性。同时,也可以直接设计大片段DNA用于纳米孔测序读出,这忽略了复杂的DNA组装操作并降低了高昂的写入成本。Yazdi等使用约束编码和均聚物校验码对几张图片进行编码,构建了17个长约1kb的DNA片段,经过纳米孔测序后,需要200
×
测序覆盖度才能实现数据恢复。Lopez等从短片段寡核苷酸池中组装了约5kb的大DNA片段,并使用纳米孔测序在22
×
测序覆盖度下成功解码了1.67MB的数据。研究者采用高效低密度奇偶校验(LDPC)码与伪随机序列叠加的编码方法构建了长度为254kb的酵母人工染色体(一个非常大的DNA片段),用于存储两张图片和一个短视频剪辑(总大小37.8KB)。使用纳米孔测序仪器,在最小16.8
×
测序覆盖度下实现了快速、便携的数据恢复。Sun等设计了
一种MEPCAL编码方案,构建了一个长约54kb的DNA片段来编码一个5.56KB的文本文件,对其进行纳米孔测序后数据恢复所需的最小测序覆盖度为9.13
×
。然而,在数据读出端中,这些方法需要复杂的读段组装步骤,增加了处理的复杂性。
[0006]针对上述问题,本专利技术提出了一种伪噪声序列伴随编码的中等长度DNA设计方法与快速读出方法。将信息序列经过分组纠错码编码后,与伪噪声序列伴随构建两层编码序列,按照特定的映射规则将两层编码序列映射为数据DNA序列。将数据DNA序列合成、组装为中等长度DNA片段,作为存储介质,并对其进行高效建库和三代测序;数据读出时,对生成的测序读段进行预处理,利用接近DNA片段大小的读段解映射得到的受损伪噪声序列与已知伪噪声序列比对确定读段位置并识别插入/删节错误,修正受损码字并进行共识、译码。本专利技术实现了低覆盖度下数据快速、无错恢复,其优势在于伪噪声序列伴随的编码方法对插入/删节错误具有高鲁棒性;伪噪声序列对比避免了复杂的组装操作,降低了处理复杂度。

技术实现思路

[0007]本专利技术提供了一种伪噪声序列伴随编码的DNA存储方法,实现了低覆盖度下数据快速、无错恢复,其特征在于伪噪声序列伴随的编码方法对插入/删节错误具有高鲁棒性;伪噪声序列对比避免了复杂的组装操作,降低了处理复杂度,详见下文描述:
[0008]一种伪噪声序列伴随编码的DNA存储方法,其方法包括以下步骤:
[0009](1)采用分组纠错码对用户拟存储的数据进行分组编码,生成码字比特序列,并生成与码字比特序列长度相同的二进制伪噪声序列,将纠错编码的码字序列与伪噪声序列分为两层逐个比特对应伴随,构建两层长度完全相同的编码序列,按照特定的比特对到碱基的映射规则将两层编码序列映射为数据DNA序列;
[0010](2)将数据DNA序列与载体序列连接,利用化学合成或酶法合成等合成方法合成、组装为不同形式的DNA片段实体,作为存储介质,对DNA片段进行建库和三代测序,生成测序读段;
[0011](3)对将测序读段解映射为受损码字序列和受损伪噪声序列,根据受损伪噪声序列与已知伪噪声序列比对,确定读段对齐位置并识别其中的插入/删节错误,根据插入/删节错误位置修正受损码字序列,修正后的码字序列逐比特进行多数投票判决得到一致性序列,将其送入译码器进行译码,恢复原始数据。
[0012]所述采用分组纠错码对用户拟存储的数据进行分组编码,生成码字比特序列,并生成与码字比特序列长度相同的二进制伪噪声序列,将纠错编码的码字序列与伪噪声序列分为两层逐个比特对应伴随,构建两层长度完全相同的编码序列,按照特定的比特对到碱基的映射规则将两层编码序列映射为数据DNA序列,具体步骤为:
[0013](1.1)采用分组纠错码(n,k)对长度为k的信息序列进行编码,成纠错编码的码字序列,编码后码字序列长度为n比特,分组纠错码采用参数为(n,k)的低密度奇偶校验码、定义在高阶伽罗华域GF(q)(q>2)上的多进制低密度奇偶校验码、具有大围长的低密度奇偶校验码、里德

所罗门码等,在这里k为信息序列的长度也即信息比特的数量,n为编码的纠错码字的长度;
[0014](1.2)与编码码字逐个比特伴随的伪随机序列采用将两个不同阶数的m序列分别进行周期延拓,得到两个长度为n比特的序列,然后将两个长度为n比特的周期延拓截取的
序列,逐比特异或得到长度为n比特的伪噪声序列;
[0015](1.3)从纠错编码码字序列、生成的长度为n比特的伪噪声序列构建两层编码序列,分别从两层中逐个取出一个比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种伪噪声序列伴随编码的DNA存储方法,其特征在于,所述方法包括以下步骤:(1)采用分组纠错码对用户拟存储的数据进行分组编码,生成码字比特序列,并生成与码字比特序列长度相同的二进制伪噪声序列,将纠错编码的码字序列与伪噪声序列分为两层逐个比特对应伴随,构建两层长度完全相同的编码序列,按照特定的比特对到碱基的映射规则将两层编码序列映射为数据DNA序列;(2)将数据DNA序列与载体序列连接,利用化学合成或酶法合成等合成方法合成、组装为不同形式的DNA片段实体,作为存储介质,对DNA片段进行建库和三代测序,生成测序读段;(3)对将测序读段解映射为受损码字序列和受损伪噪声序列,根据受损伪噪声序列与已知伪噪声序列比对,确定读段对齐位置并识别其中的插入/删节错误,根据插入/删节错误位置修正受损码字序列,修正后的码字序列逐比特进行多数投票判决得到一致性序列,将其送入译码器进行译码,恢复原始数据。2.根据权利要求1所述的一种伪噪声序列伴随编码的DNA存储方法,其特征在于,所述采采用分组纠错码对用户拟存储的数据进行分组编码,生成码字比特序列,并生成与码字比特序列长度相同的二进制伪噪声序列,将纠错编码的码字序列与伪噪声序列分为两层逐个比特对应伴随,构建两层长度完全相同的编码序列,按照特定的比特对到碱基的映射规则将两层编码序列映射为数据DNA序列,具体步骤为:(1.1)采用分组纠错码(n,k)对长度为k的信息序列进行编码,成纠错编码的码字序列,编码后码字序列长度为n比特,分组纠错码采用参数为(n,k)的低密度奇偶校验码、定义在高阶伽罗华域GF(q)(q>2)上的多进制低密度奇偶校验码、具有大围长的低密度奇偶校验码、里德

所罗门码等,在这里k为信息序列的长度也即信息比特的数量,n为编码的纠错码字的长度;(1.2)与编码码字逐个比特伴随的伪随机序列采用将两个不同阶数的m序列分别进行周期延拓,得到两个长度为n比特的序列,然后将两个长度为n比特的周期延拓截取的序列,逐比特异或得到长度为n比特的伪噪声序列;(1.3)从纠错编码码字序列、生成的长度为n比特的伪噪声序列构建两层编码序列,分别从两层中逐个取出一个比特,每层编码序列逐次选取1个比特,组合成比特对;(1.4)将比特对按照映射规则:00

A,01

T,10

G,11

C映射为碱基,得到长度为n的数据DNA序列。3.根据权利要求1所述的一种伪噪声序列伴随编码的DNA存储方法,其特征在于,将数据DNA序列与载体序列连接,利用化学合成或酶法合成等合成方法合成、组装为不同形式的DNA片段实体,作为存储介质,对DNA片段进行建库和三代测序,生成测序读段,具体描述为:所述将数据DNA序列与载体序列进行连接,然后合成、组装为不同形式的中等长度DNA片段,作为存储介质,对DNA片段进行建库和三代测序,生成测序读段,具体为借助体内组装等方法将数据DNA序列合成、组装为环形...

【专利技术属性】
技术研发人员:陈为刚郭健元英进
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1