当前位置: 首页 > 专利查询>南京大学专利>正文

一种蛋白质存储编码纠错方案制造技术

技术编号:34282917 阅读:42 留言:0更新日期:2022-07-24 18:46
本发明专利技术提出了一种蛋白质存储编码纠错方案,根据纳米孔道测序技术设置合适的数据存储格式,并将RS码应用于蛋白质存储系统中,根据需求选定编码所在的GF(2

An error correction scheme for protein storage coding

【技术实现步骤摘要】
一种蛋白质存储编码纠错方案


[0001]本专利技术设计蛋白质存储系统中的编码,具体来说是针对现有的蛋白质存储系统的多肽链的格式选定的编码方案。

技术介绍

[0002]随着对数据存储需求日益增加,人们开始探索新的存储材料,生物存储技术具有密度高的显著优势,DNA和蛋白质都是适合长期存储数据的存储介质。对于DNA数据存储来说,当DNA序列的GC含量过高或者连续出现相同序列时,DNA会变得不稳定,且数据在存储过程中可能会出现数据丢失或者数据错误情况,因此需要对数据进行编码后转换成DNA序列。为使产生的DNA序列符合生物约束规则,ERLICH Y,ZIELINSKI D等人采用了喷泉码,首先将二进制文件处理成一系列特定长度的非重叠段,再对这些非重叠段迭代进行Luby变换和对经过变换后生成的复合序列进行筛选,当收集到的复合序列总大小大于原文件大小时,就可以用反Luby变换得到原文件信息。而防止数据在DNA数据存储系统中出现丢失或错误的情况,则可以利用传统的纠错码进行纠错。
[0003]纠错码的发展较为完备,1960年,Irving S.Reed和Gustave Solomon专利技术了RS码,RS码是一种极大最小距离可分码,即最小距离为它的奇偶校验符号数加一。RS码在纠正随机符号错误和随机突发错误方面非常有效,因此被广泛用于数据存储系统中进行差错控制。RS码在添加2t个校验码的情况下完成t个码的纠错。
[0004]在KENDREW J C.对DNA存储的研究中,使用RS码对DNA进行编码时,当码率为75%时,误码率在0.547%,当码率为16.6%时,误码率在0.061%左右。相比于DNA需要遵循生物约束规则,蛋白质的生物约束规则较为宽松。自然界中天然存在的氨基酸有20种,选取其中较为稳定的4种用来表达数据。在现有的对蛋白质存储的研究中,采用了传统纠错码来完成对数据的纠错,在Cheuk Chi A.Ng等人的研究中运用了LDPC码和RS码对数据进行编码。在质谱测序过程中,由于多肽链的C端和N端出现错误的概率较大,Cheuk Chi A.Ng等人在此增加3个氨基酸作为校验位,针对多肽链头部两个氨基酸和尾部两个氨基酸进行编码,在假设氨基酸有10%的概率发生错误或者缺失的情况下,通过这种方式增加纠错码,在码率为92.8%的情况下,可以将正确率提高到93.7%。该方法码率较高,但是仅针对部分氨基酸进行了编码,当其它位置部分的氨基酸发生错误时,纠错码无法进行纠错。

技术实现思路

[0005]针对现有的蛋白质存储系统允许的多肽链格式,本申请提出了一种与之适合的数据存储格式,并与RS码相结合,提高存储系统的容错率。
[0006]一种蛋白质存储编码纠错方案,如附图1所示,其特征在于,用地址信息表示数据信息的先后顺序,与RS码相结合,提高存储系统的容错率,增加若干个表示校验信息的氨基酸,完成对若干个氨基酸的纠错,蛋白质存储系统中数据写入、存储、数据读取的具体步骤包括:
[0007]步骤1:选取4种氨基酸,用来表示地址信息、数据信息和校验信息,1个氨基酸可以存储2bit二进制数据;
[0008]步骤2:生成数据信息,数据信息根据需要存储的字符串长度确定,其数据长度用若干个氨基酸表示;
[0009]步骤3:生成地址信息,地址信息根据需要存储的数据长度确定,其数据长度用若干个氨基酸表示;
[0010]步骤4:生成校验信息,校验信息通过采用RS码对地址信息和数据信息进行编码产生,其数据长度根据需要的纠错能力确定,用若干个氨基酸表示;
[0011]步骤5:建立2组多肽链数据,1组多肽链数据包括地址信息、数据信息,另1组多肽链数据包括地址信息、校验信息,这2组多肽链数据的地址信息相同,表示对应关系;
[0012]步骤6:合成蛋白质,根据规定的蛋白质法则合成蛋白质;
[0013]步骤7:存储蛋白质,将蛋白质冻干保存;
[0014]步骤8:取出蛋白质,采用纳米孔道测序法对蛋白质进行测序并通过深度学习获得多肽链数据;
[0015]步骤9:建立数据库,将测序得到的多肽链数据分别放入数据信息数据库和校验信息数据库中,数据信息数据库中存放包含地址信息和数据信息的多肽链数据,校验信息数据库中存放包含地址信息和校验信息的多肽链数据;
[0016]步骤10:解码多肽链数据,从数据信息数据库和校验信息数据库中各取出1组多肽链数据,将两者对应后进行解码,如若解码后2组多肽链数据的地址信息相同,则认为2组多肽链数据是对应的,解码成功并从数据库中移出;
[0017]步骤11:重复步骤10直至数据信息数据库和校验信息数据库均无多肽链数据,完成解码。
[0018]优选地,步骤1所述的选取4种氨基酸,其特征在于,选用4种氨基酸或氨基酸类似物进行存储编码。
[0019]优选地,步骤3所述的生成地址信息,其特征在于,地址信息长度受限于总数据信息长度和一个蛋白质中能存储的数据信息长度,其中一个蛋白质中能存储的数据信息长度受限于规定的蛋白质法则,当总数据信息长度超过一次能存储的数据信息长度时,需要将数据信息存储在不同的蛋白质中并用地址信息表示存储的数据信息的先后,地址信息长度如公式(1)所示,用氨基酸个数表示。
[0020][0021]优选地,步骤4所述的生成校验信息,其特征在于,校验信息的总长度受限于RS编码所在的GF(2
n
)域和需要编码的数据信息长度,其中n取正整数,在GF(2
n
)域中进行编码,能够达到的最大编码长度为2
n

1个码字,n个氨基酸对应2个码字,将码长对应到氨基酸,最长可以有n*2
n
‑1‑
n/2个氨基酸,用m个氨基酸表示校验信息,则至多有n*2
n
‑1‑
m

n/2个氨基酸可以用来表示地址信息和数据信息。
[0022]优选地,步骤4所述的生成校验信息,其特征在于,采用RS码提高蛋白质存储系统的容错率,在一个数据整体,即2组多肽链数据中,采用2t个码字完成t个码字的纠错,即用表示校验信息的(n/2)*(2t)个氨基酸可以完成至少t个氨基酸的纠错,在有t个以上氨基酸发生错误的情况下,如果这些氨基酸构成了t个码字,则可以完成纠错。
[0023]优选地,步骤5所述的2组多肽链数据,其特征在于,在现有技术下,为方便测序,需要将蛋白质分组,每组多肽链中间用生化连接分子进行连接,其中一组多肽链数据格式为:地址信息

数据信息,另一组多肽链数据格式为:地址信息

校验信息,用相同的地址信息表示数据信息与校验信息的对应关系。
[0024]优选地,步骤6所述的规定蛋白质法则,其特征在于,其中生化连接分子可以是包含酶切位点的氨基酸组合。
[0025]优选地,步骤6所述的规定蛋白质法则,其特征在于,为区分表示校验信息与数据信息的多肽链,在包含校验信息或者数据信息的一组氨基酸中添加可识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种蛋白质存储编码纠错方案,其特征在于,用地址信息表示数据信息的先后顺序,与RS码相结合,提高存储系统的容错率,增加若干个表示校验信息的氨基酸,完成对若干个氨基酸的纠错,蛋白质存储系统中数据写入、存储、数据读取的具体步骤包括:步骤1:选取4种氨基酸,用来表示地址信息、数据信息和校验信息,1个氨基酸可以存储2 bit二进制数据;步骤2:生成数据信息,数据信息根据需要存储的字符串长度确定,其数据长度用若干个氨基酸表示;步骤3:生成地址信息,地址信息根据需要存储的数据信息长度确定,其数据长度用若干个氨基酸表示;步骤4:生成校验信息,校验信息通过采用RS码对地址信息和数据信息进行编码产生,其数据长度根据需要的纠错能力确定,用若干个氨基酸表示;步骤5:建立2组多肽链数据,1组多肽链数据包括地址信息、数据信息,另1组多肽链数据包括地址信息、校验信息,这2组多肽链数据的地址信息相同,表示对应关系;步骤6:合成蛋白质,根据规定的蛋白质法则合成蛋白质;步骤7:存储蛋白质,将蛋白质冻干保存;步骤8:取出蛋白质,采用纳米孔道测序法对蛋白质进行测序并通过深度学习获得多肽链数据;步骤9:建立数据库,将测序得到的多肽链数据分别放入数据信息数据库和校验信息数据库中,数据信息数据库中存放包含地址信息和数据信息的多肽链数据,校验信息数据库中存放包含地址信息和校验信息的多肽链数据;步骤10:解码多肽链数据,从数据信息数据库和校验信息数据库中各取出1组多肽链数据,将两者对应后进行解码,如若解码后2组多肽链数据的地址信息相同,则认为2组多肽链数据是对应的,解码成功并从数据库中移出;步骤11:重复步骤10直至数据信息数据库和校验信息数据库均无多肽链数据,完成解码。2.根据权利要求书1所述的一种蛋白质存储编码纠错方案,其特征在于,步骤1所述的选取4种氨基酸,选用4种氨基酸或氨基酸类似物进行存储编码。3.根据权利要求书1所述的一种蛋白质存储编码纠错方案,其特征在于,步骤3所述的生成地址信息,地址信息长度受限于总数据信息长度和一个蛋白质中能存储的数据信息长度,其中一个蛋白质中能存储的数据信息长度受限于规定的蛋白质法则,当总数据信息长度超过一次能存储的数据信息长度时,需要将数据信息存储在不同的蛋白质中并用地址信息表示存储的数据信息的先后,地址信息长度如公式(1)所示,用氨基酸个数表示。。4.根据权利要求书1所述的一种蛋白质存储编码纠错方案,其特征在于,步骤4所述的生成校验信息,校验信息的总长度受限于RS编码所在的GF(2
n
)域和需要编码的地址信息和数据信息长度,其中n取正整数,在GF(2
n
)域中进行编码,能够达到的最大编码长度为2
n

1个码字,n...

【专利技术属性】
技术研发人员:张丽敏徐子然应佚伦龙亿涛辛凯莉李欣怡高嵩闫锋
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1