当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于自适应编码的蛋白存储文件管理系统及方法技术方案

技术编号:39036217 阅读:14 留言:0更新日期:2023-10-10 11:49
本发明专利技术揭示了一种基于自适应编码的蛋白存储文件管理系统及方法,包括编码记录数据库、解码记录数据库,信息编码模块、信息检索模块、信息解码模块和结果输出模块;信息编码模块用于将文件编码为氨基酸序列;信息检索模块用于查询编码记录和解码记录,根据编码记录得到编码文件地址用于后续的解码操作;信息解码模块用于将氨基酸序列解码为源文件;结果输出模块用于对编码和解码产生的结果进行输出。本发明专利技术提供的基于自适应编码的蛋白存储文件管理系统及方法,实现了具有存储密度高、测序覆盖率低、存储时间长、耦合度高、可塑性强的蛋白存储系统,保证数据存储的安全性、可靠性和持久性。久性。久性。

【技术实现步骤摘要】
一种基于自适应编码的蛋白存储文件管理系统及方法


[0001]本专利技术涉及一种基于自适应编码的蛋白存储文件管理系统及方法,属于计算机和生物学领域。

技术介绍

[0002]如今,随着互联网和人工智能等信息技术的快速发展使得信息量呈指数级增长。这一数据增长趋势将很快超过现有硬盘等存储介质得承受能力,现阶段使用的大量存储设备具有存储期限短、数据易受环境影响、能源消耗大、维护成本高以及污染环境等缺陷和弊端。因此寻找一种新的数据存储介质是非常有必要的。
[0003]蛋白质是大分子化合物,由氨基酸构成,具有存储密度高、存储时间长、可塑性强等特点。与传统的硅基介质不同,蛋白存储与编码的信息写入方式是将信息利用固相多肽合成技术和蛋白连接技术,制备一定长度的多肽链,合成后多肽链以粉末方式保存或通过物理参杂、化学交联等方式混入特定物件中,实现信息的长时间、无痕、稳定保存。利用人工合成的蛋白来存储文本、图像音频等数据,需要时通过质谱测序技术将多肽链进行测序,测序后的片段拼接后进行解码,即可重新生成原始数据。
[0004]蛋白编码是蛋白存储中的关键技术,其结果直接影响存储性能的优劣和数据读写的完整。蛋白存储技术以氨基酸结构单元作为信息存储和编码的载体,具有存储密度大、存储时间长、稳定性高、可塑性强等特性。因此,借助自适应编码的蛋白存储文件管理方法,是很有必要的。

技术实现思路

[0005]本专利技术的目的是:实现存储密度高、测序覆盖率低、存储时间长、耦合度高、可塑性强的蛋白存储技术。
[0006]为了达到上述目的,本专利技术的一个技术方案是提供了一种基于自适应编码的蛋白存储文件管理系统,该蛋白存储文件管理系统是一个可视化的操作平台,其特征在于,包括原始文件上传模块、信息编码模块、信息解码模块、编码记录数据库、解码记录数据库、结果输出模块,其中:
[0007]用户通过网页上显示的控件调用原始文件上传模块,上传原始文件;
[0008]用户通过网页上显示的控件调用信息编码模块,通过信息编码模块将原始文件上传模块上传的原始文件编码为氨基酸序列;若编码成功,则信息编码模块通过网页向用户反馈编码成功信息,表示代码编码结束;在编码过程中,信息编码模块访问编码记录数据库,将信息编码过程中产生的文件及操作记录保存至编码记录数据库内;
[0009]用户通过网页上显示的控件调用信息解码模块,信息解码模块对蛋白多肽链进行测序得到氨基酸片段序列,并基于用户输入的信息编码过程中产生的文件及操作记录,将氨基酸片段序列解码为原始文件;结果输出模块将信息解码模块输出的原始文件通过网页反馈给用户;在解码过程中,信息解码模块访问解码记录数据库,将信息解码过程中产生的
文件及操作记录保存至解码记录数据库内;
[0010]用户通过信息检索页面调用信息检索模块,在信息检索页面上输入关键字后,信息检索模块获取用户输入的关键字,根据关键字访问编码记录数据库或解码记录数据库,查询得到相匹配的信息编码过程或信息解码过程中产生的文件及操作记录后,通过信息检索页面反馈给用户。
[0011]优选地,所述原始文件包括文本文件、图像文件或音频文件。
[0012]优选地,所述信息编码模块对不同的编码区位置采用不同的编码方案,并采用自适应生成编码约束阈值的方法。
[0013]优选地,所述结果输出模块通过浏览器的下载功能将文件导出到本地计算机。
[0014]本专利技术的另一个技术方案是提供了一种自适应编码的蛋白存储文件管理方法,其特征在于,包括如下步骤:
[0015]S100、预处理:将原始文件转换为二进制码;
[0016]S200、加入冗余:在步骤S100中生成的二进制码中使用Reed

Solomon纠错码添加冗余信息;
[0017]S300、分段:将添加完冗余信息的二进制码分割成等长的n个分段,在每个分段两端添加编号信息序列和可实现随机数据访问的信息序列,并基于Robust Soliton分布产生一个随机整数d;
[0018]S400、自适应编码:
[0019]根据编码位置的特点,对上一步所获得编码中的有效载荷和非有效载荷两种不同情况采用不同的编码方式,其中,有效载荷指的是一步所获得编码中未添加冗余之前的部分,非有效载荷是指分段时添加在每段两端的编号信息序列和可实现随机的数据访问的信息序列;
[0020]S500、蛋白合成:将步骤S400中生成的氨基酸序列合成为多肽链并制成蛋白信息存储材料;
[0021]S600、信息解码:将氨基酸序列重新还原为原始文件;
[0022]S700、结果展示:利用结果输出模块将步骤S600中生成的原始文件通过显示屏显示结果,并将结果保存至编码记录数据库中。
[0023]优选地,所述步骤S400中,对于有效载荷部分采用喷泉码进行编码。
[0024]优选地,所述步骤S400中,对于有效载荷部分进行编码包括以下步骤:
[0025]S401、Luby变换:根据步骤S300中获得的d值,在n个分段中选出d个进行XOR异或运算生成编码符号,为了保障存储质量,引入两个字节的RS纠错码,然后将编码符号和纠错码组合成一个液滴,作为Luby变换的输出;
[0026]S402、筛选:首先将液滴的二进制序列转换为氨基酸序列,然后运用算法对液滴的均聚物及GC含量进行筛选;若通过筛选,则认为液滴是有效的并将它添加至文件中进行存储,若未通过筛选,则认为是无效液滴,将其删除;
[0027]S403、计算约束阈值:通过有效载荷编码的GC内容根据公式来自适应地计算非有效载荷编码时的GC含量阈值,使得在蛋白合成和测序中,GC的含量保持在50%左右,以获得更好的效果。
[0028]优选地,所述步骤S400中,对于非有效载荷部分的编码采用约束过滤策略。
[0029]优选地,所述步骤S400中,对于非有效载荷部分进行编码具体包括以下步骤:
[0030]S404、计算有效载荷编码集的GC内容和连续性等特征值;
[0031]S405、计算生成非有效载荷编码集GC内容的阈值、连续性阈值,针对不同的存储条件、存储内容、不同的实验环境和不同的存储开销,合理地选择算法和约束,以保证非有效载荷部分的编码质量,支持的算法包括K均值多节优化器算法(KMVO)、阻尼多节优化器算法(DMVO)、双策略黑寡妇优化算法(BMVO)和柯西和利维突变策略算法(CLGBO),为了减少氨基酸序列间的相似性,设计了汉明距离约束(Hamming)和存储编辑距离约束(Edit),使用最小自由能约束(MFE)和解链温度约束(TM)筛选出更具热稳定性的氨基酸序列,非游程长度约束(Non

run)可以避免连续相同的氨基酸,而GC约束用于约束非有效载荷编码集中GC内容的阈值;S406、输入对非有效载荷编码集合进行编码所需的地址位数,判断当前非有效载荷编码集GC内容的阈值条件是否超过非有效载荷编码集合的下界;
[0032]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应编码的蛋白存储文件管理系统,该蛋白存储文件管理系统是一个可视化的操作平台,其特征在于,包括原始文件上传模块、信息编码模块、信息解码模块、编码记录数据库、解码记录数据库、结果输出模块,其中:用户通过网页上显示的控件调用原始文件上传模块,上传原始文件;用户通过网页上显示的控件调用信息编码模块,通过信息编码模块将原始文件上传模块上传的原始文件编码为氨基酸序列;若编码成功,则信息编码模块通过网页向用户反馈编码成功信息,表示代码编码结束;在编码过程中,信息编码模块访问编码记录数据库,将信息编码过程中产生的文件及操作记录保存至编码记录数据库内;用户通过网页上显示的控件调用信息解码模块,信息解码模块对蛋白多肽链进行测序得到氨基酸片段序列,并基于用户输入的信息编码过程中产生的文件及操作记录,将氨基酸片段序列解码为原始文件;结果输出模块将信息解码模块输出的原始文件通过网页反馈给用户;在解码过程中,信息解码模块访问解码记录数据库,将信息解码过程中产生的文件及操作记录保存至解码记录数据库内;用户通过信息检索页面调用信息检索模块,在信息检索页面上输入关键字后,信息检索模块获取用户输入的关键字,根据关键字访问编码记录数据库或解码记录数据库,查询得到相匹配的信息编码过程或信息解码过程中产生的文件及操作记录后,通过信息检索页面反馈给用户。2.如权利要求1所述的一种基于自适应编码的蛋白存储文件管理系统,其特征在于,所述原始文件包括文本文件、图像文件或音频文件。3.如权利要求1所述的一种基于自适应编码的蛋白存储文件管理系统,其特征在于,所述信息编码模块对不同的编码区位置采用不同的编码方案,并采用自适应生成编码约束阈值的方法。4.如权利要求1所述的一种基于自适应编码的蛋白存储文件管理系统,其特征在于,所述结果输出模块通过浏览器的下载功能将文件导出到本地计算机。5.一种自适应编码的蛋白存储文件管理方法,其特征在于,包括如下步骤:S100、预处理:将原始文件转换为二进制码;S200、加入冗余:在步骤S100中生成的二进制码中使用Reed

Solomon纠错码添加冗余信息;S300、分段:将添加完冗余信息的二进制码分割成等长的n个分段,在每个分段两端添加编号信息序列和可实现随机数据访问的信息序列,并基于Robust Soliton分布产生一个随机整数d;S400、自适应编码:根据编码位置的特点,对上一步所获得编码中的有效载荷和非有效载荷两种不同情况采用不同的编码方式,其中,有效载荷指的是一步所获得编码中未添加冗余之前的部分,非有效载荷是指分段时添加在每段两端的编号信息序列和可实现随机的数据访问的信息序列;S500、蛋白合成:将步骤S400中生成的氨基酸序列合成为多肽链并制成蛋白信息存储材料;S600、信息解码:将氨基酸序列重...

【专利技术属性】
技术研发人员:武星胡宏岗董昕苏笠胡明涛
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1