【技术实现步骤摘要】
一种蛋白质存储编码纠错方案
[0001]本专利技术设计蛋白质存储系统中的编码,具体来说是针对现有的蛋白质存储系统的多肽链的格式选定的编码方案。
技术介绍
[0002]随着对数据存储需求日益增加,人们开始探索新的存储材料,生物存储技术具有密度高的显著优势,DNA和蛋白质都是适合长期存储数据的存储介质。对于DNA数据存储来说,当DNA序列的GC含量过高或者连续出现相同序列时,DNA会变得不稳定,且数据在存储过程中可能会出现数据丢失或者数据错误情况,因此需要对数据进行编码后转换成DNA序列。为使产生的DNA序列符合生物约束规则,ERLICH Y,ZIELINSKI D等人采用了喷泉码,首先将二进制文件处理成一系列特定长度的非重叠段,再对这些非重叠段迭代进行Luby变换和对经过变换后生成的复合序列进行筛选,当收集到的复合序列总大小大于原文件大小时,就可以用反Luby变换得到原文件信息。而防止数据在DNA数据存储系统中出现丢失或错误的情况,则可以利用传统的纠错码进行纠错。
[0003]纠错码的发展较为完备,1960年,Irving S.Reed和Gustave Solomon专利技术了RS码,RS码是一种极大最小距离可分码,即最小距离为它的奇偶校验符号数加一。RS码在纠正随机符号错误和随机突发错误方面非常有效,因此被广泛用于数据存储系统中进行差错控制。RS码在添加2t个校验码的情况下完成t个码的纠错。
[0004]在KENDREW J C.对DNA存储的研究中,使用RS码对DNA进行编码时,当码率为75%时,误 ...
【技术保护点】
【技术特征摘要】
1.一种蛋白质存储编码纠错方案,其特征在于,用地址信息表示数据信息的先后顺序,与RS码相结合,提高存储系统的容错率,增加若干个表示校验信息的氨基酸,完成对若干个氨基酸的纠错,蛋白质存储系统中数据写入、存储、数据读取的具体步骤包括:步骤1:选取4种氨基酸,用来表示地址信息、数据信息和校验信息,1个氨基酸可以存储2 bit二进制数据;步骤2:生成数据信息,数据信息根据需要存储的字符串长度确定,其数据长度用若干个氨基酸表示;步骤3:生成地址信息,地址信息根据需要存储的数据信息长度确定,其数据长度用若干个氨基酸表示;步骤4:生成校验信息,校验信息通过采用RS码对地址信息和数据信息进行编码产生,其数据长度根据需要的纠错能力确定,用若干个氨基酸表示;步骤5:建立2组多肽链数据,1组多肽链数据包括地址信息、数据信息,另1组多肽链数据包括地址信息、校验信息,这2组多肽链数据的地址信息相同,表示对应关系;步骤6:合成蛋白质,根据规定的蛋白质法则合成蛋白质;步骤7:存储蛋白质,将蛋白质冻干保存;步骤8:取出蛋白质,采用纳米孔道测序法对蛋白质进行测序并通过深度学习获得多肽链数据;步骤9:建立数据库,将测序得到的多肽链数据分别放入数据信息数据库和校验信息数据库中,数据信息数据库中存放包含地址信息和数据信息的多肽链数据,校验信息数据库中存放包含地址信息和校验信息的多肽链数据;步骤10:解码多肽链数据,从数据信息数据库和校验信息数据库中各取出1组多肽链数据,将两者对应后进行解码,如若解码后2组多肽链数据的地址信息相同,则认为2组多肽链数据是对应的,解码成功并从数据库中移出;步骤11:重复步骤10直至数据信息数据库和校验信息数据库均无多肽链数据,完成解码。2.根据权利要求书1所述的一种蛋白质存储编码纠错方案,其特征在于,步骤1所述的选取4种氨基酸,选用4种氨基酸或氨基酸类似物进行存储编码。3.根据权利要求书1所述的一种蛋白质存储编码纠错方案,其特征在于,步骤3所述的生成地址信息,地址信息长度受限于总数据信息长度和一个蛋白质中能存储的数据信息长度,其中一个蛋白质中能存储的数据信息长度受限于规定的蛋白质法则,当总数据信息长度超过一次能存储的数据信息长度时,需要将数据信息存储在不同的蛋白质中并用地址信息表示存储的数据信息的先后,地址信息长度如公式(1)所示,用氨基酸个数表示。。4.根据权利要求书1所述的一种蛋白质存储编码纠错方案,其特征在于,步骤4所述的生成校验信息,校验信息的总长度受限于RS编码所在的GF(2
n
)域和需要编码的地址信息和数据信息长度,其中n取正整数,在GF(2
n
)域中进行编码,能够达到的最大编码长度为2
n
‑
1个码字,n...
【专利技术属性】
技术研发人员:张丽敏,徐子然,应佚伦,龙亿涛,辛凯莉,李欣怡,高嵩,闫锋,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。