基于标签数据生长基因的数据序列处理方法技术

技术编号：29024415 阅读：16 留言：0更新日期：2021-06-26 05:25

本发明专利技术提供了基于标签数据生长基因的数据序列处理方法，包括数据序列中标签数据生长基因的提取方法，该方法使用数据序列S扫描标签数据库，得到一组标签数据段及该数据段在数据序列S中的位置，用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数，记录这些本次扫描结果参数，然后在数据序列S中去除所述标签数据段，用剩余数据段组装成新的数据序列S重新扫描，最后组织每一次扫描结果参数，生成原始数据序列S的生长基因序列。本发明专利技术还提供了基于标签数据生长基因的数据存储方法和数据存储方法。数据存储方法和数据存储方法。数据存储方法和数据存储方法。

全部详细技术资料下载

【技术实现步骤摘要】
基于标签数据生长基因的数据序列处理方法

[0001]本专利技术涉及数据处理方法，特别涉及处理包含大量数据的数据序列的方法。

技术介绍

[0002]在任何形式的计算机系统中，数据的存储和传输都是重要的任务。例如，网络中的数据在被传输前，为了减少实际传输的数据量，通常需要对待传输的数据进行压缩，以减少网络传输资源的占用以及减少传输失败的机会，提高数据传输的效率。通常，我们在希望数据存储的可靠和安全的同时，还希望能够尽可能少地占用存储资源，然而这是难以两全的一对矛盾。数据的可靠意味着要有一定的冗余，数据的安全通常靠编码实现对数据的加密计算，这些通常都是以多占用存储资源为基础的。
[0003]在数据传输的各个层次，减少传输重复数据的传输都具有重要意义。而减少数据重复传输的关键，在于如何获知哪些数据是重复的，以及在数据接收端迅速且无瑕疵地恢复数据发送端的原始数据。对于静态数据，即内容确定的数据集合，如果能够获知需要重复传输的数据或数据集合，为重复的数据分配一个标签或标识，就可以用所述标签替代重复的数据进行传输，从而减少数据的重传以及在数据接收端恢复原始数据。而且，标签的长度和重复数据长度的比值越小，数据传输效率就越高。
[0004]在一个数据集合中找到标签能够替代的数据段的过程，就是在数据传输前对其实施的一种处理过程。现有的数据压缩或预处理方法，通常认为一个数据集合中存在的重复“倾向于大量出现短语式的重复，而且重复倾向于出现在离当前压缩位置较近的地方，重复长度倾向于比较短（20字节以内）”，重复的字节越短，重复...

【技术保护点】

【技术特征摘要】
1.一种数据序列中标签数据生长基因的提取方法，其特征在于包括：111、使用数据序列S扫描标签数据库，得到一组标签数据段及该数据段在数据序列S中的位置；112、判断是否得到有效标签数据段，如果得到，用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数，记录这些本次扫描结果参数，其中，所述标签为生长基因，标签在数据序列S中的位置为生长参数，转步骤113，否则，转步骤114；113、在数据序列S中去除所述标签数据段，用剩余数据段组装成新的数据序列S，转步骤111；114、组织每一次扫描结果参数，生成原始数据序列S的生长基因序列。2.一种数据序列中标签数据生长基因的提取方法，其特征在于包括：161、判断数据序列S是否满足扫描条件，如果是，转步骤162；否则，转步骤165；162、使用数据序列S扫描标签数据库，得到一组标签数据段及该数据段在数据序列S中的位置；163、用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数，记录这些本次扫描结果参数，记录这些本次扫描结果参数，其中，所述标签为生长基因，标签在数据序列S中的位置为生长参数；164、在数据序列S中去除所述标签数据段，用剩余数据段组装成新的数据序列S，转步骤161；165、组织每一次扫描结果参数，生成原始数据序列S的生长基因序列。3.一种数据序列中标签数据生长基因的提取方法，其特征在于包括：181、设置标签数据库的初始级数n为1，n的最大值N，N为标签数据库的级数；182、判断n是否小于或等于N，如果是，使用数据序列S扫描n级标签数据库，得到一组标签数据段及该数据段在数据序列S中的位置，转步骤184，否则转步骤187；184、判断是否得到有效标签数据段，如果得到，用所述标签数据段对应的标签及其在数据序列S中的位置作为本级扫描结果参数，记录这些本级扫描结果参数，其中，所述标签为生长基因，标签在数据序列S中的位置为生长参数，转步骤186，否则，转步骤187；186、在数据序列S中用所述标签数据段的标签代替所述标签数据段，组装成新的数据序列S，令n=n+1，转步骤182；187、组织每一级扫描结果参数，生成原始数据序列S的生长基因序列。4.一种数据序列中标签数据生长基因的提取方法，其特征在于包括：180、判断数据序列S是否满足扫描条件，如果是，转步骤181；否则，转步骤187；181、设置标签数据库的初始级数n为1，n的最大值N，N为标签数据库的级数；182、判断n是否小于或等于N，如果是，使用数据序列S扫描第n级标签数据库，得到一组标签数据段及该数据段在数据序列S中的位置，转步骤184，否则转步骤187；184、判断是否得到有效标签数据段，如果得到，用所述标签数据段对应的标签及其在数据序列S中的位置作为本级扫描结果参数，记录这些本级扫描结果参数，其中，所述标签为生长基因，标签在数据序列S中的位置为生长参数，转步骤186，否则，转步骤187；186、在数据序列S中用所述标签数据段的标签代替所述标签数据段，组装成新的数据序列S，令n=n+1，转步骤182；
187、组织每一级扫描结果参数，生成原始数据序列S的生长基因序列。5.一种基于标签数据生长基因的数据存储方法，其特征在于包括：211、使用数据序列S扫描标签数据库，得到一组标签数据段及该数据段在数据序列S中的位置；212、判断是否得到有效标签数据段，如果得到，用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数，记录这些本次扫描结果参数，其中，所述标签为生长基因，标签在数据序列S中的位置为生长参数，转步骤213，否则，转步骤214；213、在数据序列S中去除所述标签数据段，用剩余数据段组装成新的数据序列S，转步骤211；214、组织每一次扫描结果参数，生成原始数据序列S的生长基因序列；215、用新的数据序列S和原始数据序列S的生长基因序列组装成基因数据序列S
’
存储。6.一种基于标签数据生长基因的数据存储方法，其特征在于包括：261、判断数据序列S是否满足扫描条件，如果是，转步骤262；否则，转步骤265；262、使用数据序列S扫描标签数据库，得到一组标签数据段及该数据段在数据序列S中的位置；263、用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数，记录这些本次扫描结果参数，其中，所述标签为生长基因，标签在数据序列S中的位置为生长参数；264、在数据序列S中去除所述标签数据段，用剩余数据段组装成新的数据序列S，转步骤261；265、组织每一次扫描结果参数，生成原始数据序列S的生长基因序列；266、用...

【专利技术属性】
技术研发人员：白杰，
申请(专利权)人：江苏数字产权交易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人