基于标签数据生长基因的数据序列处理方法技术

技术编号:29024415 阅读:16 留言:0更新日期:2021-06-26 05:25
本发明专利技术提供了基于标签数据生长基因的数据序列处理方法,包括数据序列中标签数据生长基因的提取方法,该方法使用数据序列S扫描标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置,用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这些本次扫描结果参数,然后在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S重新扫描,最后组织每一次扫描结果参数,生成原始数据序列S的生长基因序列。本发明专利技术还提供了基于标签数据生长基因的数据存储方法和数据存储方法。数据存储方法和数据存储方法。数据存储方法和数据存储方法。

【技术实现步骤摘要】
基于标签数据生长基因的数据序列处理方法


[0001]本专利技术涉及数据处理方法,特别涉及处理包含大量数据的数据序列的方法。

技术介绍

[0002]在任何形式的计算机系统中,数据的存储和传输都是重要的任务。例如,网络中的数据在被传输前,为了减少实际传输的数据量,通常需要对待传输的数据进行压缩,以减少网络传输资源的占用以及减少传输失败的机会,提高数据传输的效率。通常,我们在希望数据存储的可靠和安全的同时,还希望能够尽可能少地占用存储资源,然而这是难以两全的一对矛盾。数据的可靠意味着要有一定的冗余,数据的安全通常靠编码实现对数据的加密计算,这些通常都是以多占用存储资源为基础的。
[0003]在数据传输的各个层次,减少传输重复数据的传输都具有重要意义。而减少数据重复传输的关键,在于如何获知哪些数据是重复的,以及在数据接收端迅速且无瑕疵地恢复数据发送端的原始数据。对于静态数据,即内容确定的数据集合,如果能够获知需要重复传输的数据或数据集合,为重复的数据分配一个标签或标识,就可以用所述标签替代重复的数据进行传输,从而减少数据的重传以及在数据接收端恢复原始数据。而且,标签的长度和重复数据长度的比值越小,数据传输效率就越高。
[0004]在一个数据集合中找到标签能够替代的数据段的过程,就是在数据传输前对其实施的一种处理过程。现有的数据压缩或预处理方法,通常认为一个数据集合中存在的重复“倾向于大量出现短语式的重复,而且重复倾向于出现在离当前压缩位置较近的地方,重复长度倾向于比较短(20字节以内)”,重复的字节越短,重复的概率越高。例如目前广为流行的ZIP压缩算法,就是以“短字节”的重复为基础的。然而,这样就可能导致重复的“短字节”标签的长度和重复的“短字节”的数据长度比值变大,使得高重复概率的“短字节”并不一定导致数据序列的高压缩率,因此,这种方法的压缩效果是有限的,尤其在数据重复特征明显的领域,难以与数据特征结合达到更好的数据压缩效果。
[0005]实际上,在包含大量数据的数据序列中,仍然存在着数据的构成规律,即数据序列的生长基因或构成基因,如果将这些基因提取出来,将有利于数据序列的压缩、存储以及加密等操作。

技术实现思路

[0006]本专利技术解决的问题是,提供基于标签数据生长基因的数据序列处理方法,该方法包括数据序列中标签数据生长基因的提取方法、基于标签数据生长基因的数据存储方法和基于标签数据生长基因的数据压缩方法。
[0007]其中,数据序列中标签数据生长基因的提取方法的一个实施例的操作是:通过数据序列S对标签数据库进行扫描,获取一组标签数据段以及所述标签数据段在数据序列S中的位置,判断获取的所述标签数据段是否为有效标签数据段,若获取的是有效标签数据段,用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这
些本次扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数,在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S,再次从通过数据序列S对标签数据库进行扫描,获取一组标签数据段以及所述标签数据段在数据序列S中的位置的步骤开始,循环所述在数据序列中提取标签数据生长基因的方法。若得到的是无效标签数据段,组织每一次扫描结果参数,生成原始数据序列S的生长基因序列。
[0008]按照数据序列中标签数据生长基因的提取方法的实施例,如果数据序列S足够长,每次扫描该数据序列S,通常都会得到一组重复的数据段及该数据段在数据序列S中的位置,而以标签数据库为基础选择标签数据段及其在数据序列S中的重复位置作为扫描结果参数,这样,就可以用长度很小的标签代替长度很大的重复数据段作为数据序列S的生长基因,用数据段的重复位置作为基因生长参数,就能获得原来的数据序列S的生长基因序列,再结合残余数据序列中的数据,就能够复原原始的数据序列。而通过对不断产生的残余数据序列进行扫描,更能多次得到每次扫描对应的生长基因和基因生长参数,通过这样一组生长基因和基因生长参数,由于没有了对重复数据长度的限制,有利于实现对数据序列S更高效率地压缩和还原,因此,本专利技术实施例有利于提取生长效率更高的原始数据序列S的生长基因和生长参数。
[0009]其中,基于标签数据生长基因的数据存储方法的一个实施例的操作是:先建立一个标识标签与数据段对照关系的标签数据库,标签数据库可采用滑动窗口技术生成;再基于标签数据库,预先将一个待处理的数据集合形成一个数据序列S;使用数据序列S扫描标签数据库;判断是否存在有效标签数据段,如果存在,将数据序列S中去除所述标签数据段,同时记录标签在数据序列S中的位置为生长参数,标签为生长基因;对去除标签后的数据序列S继续执行扫描操作,直到不存在有效标签数据段为止;最后将每一次扫描得到的结果参数组织起来,生成原始数据序列S的生长基因序列。
[0010]按照基于标签数据生长基因的数据存储方法的实施例,如果数据序列S足够长,每次扫描该数据序列S,通常都会得到一组重复的数据段及该数据段在数据序列S中的位置,而选择标签数据段及其在数据序列S中的重复位置作为扫描结果参数,这样,就可以用更高重复效率的重复数据段作为数据序列S的生长基因,用数据段的重复位置作为基因生长参数,再结合残余数据序列中的数据就能获得原来的数据序列S,这一点对某个特别领域尤其具有价值。而通过对不断产生的残余数据序列进行扫描,更能多次得到每次扫描对应的生长基因和基因生长参数,通过这样一组生长基因和基因生长参数,由于没有了对重复数据长度的限制,还由于标签的长度远小于其对应的数据段的长度,有利于实现对数据序列S更高效率的压缩,从而占据相对较少的存储资源。另外,由于生长基因和基因生长参数具有完全随机性,因此这样的存储方法也使数据序列S得到了很好的加密。
[0011]其中,基于标签数据生长基因的数据压缩方法的一个实施例的操作是:首先选择一个具有至少两个字符子集的字符集,两个字符子集具有互不相同的编码,使用字符集中第一字符子集的字符编码规则对待压缩的二进制数据序列进行编码,得到数据序列S;再使用数据序列S扫描预先采用滑动窗口技术生成的标签数据库,得到标签数据段以及数据段在数据序列S中的位置;判断是否存在有效标签数据段,如果存在,将数据序列S中去除所述标签数据段,同时记录标签在数据序列S中的位置为生长参数,标签为生长基因;对去除标签后的数据序列S继续执行扫描操作,直到不存在有效标签数据段为止;最后将每一次扫描
得到的结果参数组织起来,生成原始数据序列S的生长基因序列。
[0012]按照基于标签数据生长基因的数据压缩方法的实施例,如果二进制数据序列S2生成的数据序列S足够长,每次扫描该数据序列S,通常都会得到一组标签数据段及该数据段在数据序列S中的位置,而选择标签数据段及其在数据序列S中的重复位置作为扫描结果参数,这样,就可以用标签数据段的标签本身作为数据序列S的生长基因,用数据段的重复位置作为基因生长参数,再结合残余数据序列中的数据就能获得原来的数据序列S。而通过对不断产生的残余数据序列进行扫描,更本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据序列中标签数据生长基因的提取方法,其特征在于包括:111、使用数据序列S扫描标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置;112、判断是否得到有效标签数据段,如果得到,用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这些本次扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数,转步骤113,否则,转步骤114;113、在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S,转步骤111;114、组织每一次扫描结果参数,生成原始数据序列S的生长基因序列。2.一种数据序列中标签数据生长基因的提取方法,其特征在于包括:161、判断数据序列S是否满足扫描条件,如果是,转步骤162;否则,转步骤165;162、使用数据序列S扫描标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置;163、用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这些本次扫描结果参数,记录这些本次扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数;164、在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S,转步骤161;165、组织每一次扫描结果参数,生成原始数据序列S的生长基因序列。3.一种数据序列中标签数据生长基因的提取方法,其特征在于包括:181、设置标签数据库的初始级数n为1,n的最大值N,N为标签数据库的级数;182、判断n是否小于或等于N,如果是,使用数据序列S扫描n级标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置,转步骤184,否则转步骤187;184、判断是否得到有效标签数据段,如果得到,用所述标签数据段对应的标签及其在数据序列S中的位置作为本级扫描结果参数,记录这些本级扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数,转步骤186,否则,转步骤187;186、在数据序列S中用所述标签数据段的标签代替所述标签数据段,组装成新的数据序列S,令n=n+1,转步骤182;187、组织每一级扫描结果参数,生成原始数据序列S的生长基因序列。4.一种数据序列中标签数据生长基因的提取方法,其特征在于包括:180、判断数据序列S是否满足扫描条件,如果是,转步骤181;否则,转步骤187;181、设置标签数据库的初始级数n为1,n的最大值N,N为标签数据库的级数;182、判断n是否小于或等于N,如果是,使用数据序列S扫描第n级标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置,转步骤184,否则转步骤187;184、判断是否得到有效标签数据段,如果得到,用所述标签数据段对应的标签及其在数据序列S中的位置作为本级扫描结果参数,记录这些本级扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数,转步骤186,否则,转步骤187;186、在数据序列S中用所述标签数据段的标签代替所述标签数据段,组装成新的数据序列S,令n=n+1,转步骤182;
187、组织每一级扫描结果参数,生成原始数据序列S的生长基因序列。5.一种基于标签数据生长基因的数据存储方法,其特征在于包括:211、使用数据序列S扫描标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置;212、判断是否得到有效标签数据段,如果得到,用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这些本次扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数,转步骤213,否则,转步骤214;213、在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S,转步骤211;214、组织每一次扫描结果参数,生成原始数据序列S的生长基因序列;215、用新的数据序列S和原始数据序列S的生长基因序列组装成基因数据序列S

存储。6.一种基于标签数据生长基因的数据存储方法,其特征在于包括:261、判断数据序列S是否满足扫描条件,如果是,转步骤262;否则,转步骤265;262、使用数据序列S扫描标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置;263、用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这些本次扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数;264、在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S,转步骤261;265、组织每一次扫描结果参数,生成原始数据序列S的生长基因序列;266、用...

【专利技术属性】
技术研发人员:白杰
申请(专利权)人:江苏数字产权交易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利