【技术实现步骤摘要】
基于标签数据生长基因的数据序列处理方法
[0001]本专利技术涉及数据处理方法,特别涉及处理包含大量数据的数据序列的方法。
技术介绍
[0002]在任何形式的计算机系统中,数据的存储和传输都是重要的任务。例如,网络中的数据在被传输前,为了减少实际传输的数据量,通常需要对待传输的数据进行压缩,以减少网络传输资源的占用以及减少传输失败的机会,提高数据传输的效率。通常,我们在希望数据存储的可靠和安全的同时,还希望能够尽可能少地占用存储资源,然而这是难以两全的一对矛盾。数据的可靠意味着要有一定的冗余,数据的安全通常靠编码实现对数据的加密计算,这些通常都是以多占用存储资源为基础的。
[0003]在数据传输的各个层次,减少传输重复数据的传输都具有重要意义。而减少数据重复传输的关键,在于如何获知哪些数据是重复的,以及在数据接收端迅速且无瑕疵地恢复数据发送端的原始数据。对于静态数据,即内容确定的数据集合,如果能够获知需要重复传输的数据或数据集合,为重复的数据分配一个标签或标识,就可以用所述标签替代重复的数据进行传输,从而减少数据的重传以及在数据接收端恢复原始数据。而且,标签的长度和重复数据长度的比值越小,数据传输效率就越高。
[0004]在一个数据集合中找到标签能够替代的数据段的过程,就是在数据传输前对其实施的一种处理过程。现有的数据压缩或预处理方法,通常认为一个数据集合中存在的重复“倾向于大量出现短语式的重复,而且重复倾向于出现在离当前压缩位置较近的地方,重复长度倾向于比较短(20字节以内)”,重复的字节越短,重复 ...
【技术保护点】
【技术特征摘要】
1.一种数据序列中标签数据生长基因的提取方法,其特征在于包括:111、使用数据序列S扫描标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置;112、判断是否得到有效标签数据段,如果得到,用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这些本次扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数,转步骤113,否则,转步骤114;113、在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S,转步骤111;114、组织每一次扫描结果参数,生成原始数据序列S的生长基因序列。2.一种数据序列中标签数据生长基因的提取方法,其特征在于包括:161、判断数据序列S是否满足扫描条件,如果是,转步骤162;否则,转步骤165;162、使用数据序列S扫描标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置;163、用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这些本次扫描结果参数,记录这些本次扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数;164、在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S,转步骤161;165、组织每一次扫描结果参数,生成原始数据序列S的生长基因序列。3.一种数据序列中标签数据生长基因的提取方法,其特征在于包括:181、设置标签数据库的初始级数n为1,n的最大值N,N为标签数据库的级数;182、判断n是否小于或等于N,如果是,使用数据序列S扫描n级标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置,转步骤184,否则转步骤187;184、判断是否得到有效标签数据段,如果得到,用所述标签数据段对应的标签及其在数据序列S中的位置作为本级扫描结果参数,记录这些本级扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数,转步骤186,否则,转步骤187;186、在数据序列S中用所述标签数据段的标签代替所述标签数据段,组装成新的数据序列S,令n=n+1,转步骤182;187、组织每一级扫描结果参数,生成原始数据序列S的生长基因序列。4.一种数据序列中标签数据生长基因的提取方法,其特征在于包括:180、判断数据序列S是否满足扫描条件,如果是,转步骤181;否则,转步骤187;181、设置标签数据库的初始级数n为1,n的最大值N,N为标签数据库的级数;182、判断n是否小于或等于N,如果是,使用数据序列S扫描第n级标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置,转步骤184,否则转步骤187;184、判断是否得到有效标签数据段,如果得到,用所述标签数据段对应的标签及其在数据序列S中的位置作为本级扫描结果参数,记录这些本级扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数,转步骤186,否则,转步骤187;186、在数据序列S中用所述标签数据段的标签代替所述标签数据段,组装成新的数据序列S,令n=n+1,转步骤182;
187、组织每一级扫描结果参数,生成原始数据序列S的生长基因序列。5.一种基于标签数据生长基因的数据存储方法,其特征在于包括:211、使用数据序列S扫描标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置;212、判断是否得到有效标签数据段,如果得到,用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这些本次扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数,转步骤213,否则,转步骤214;213、在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S,转步骤211;214、组织每一次扫描结果参数,生成原始数据序列S的生长基因序列;215、用新的数据序列S和原始数据序列S的生长基因序列组装成基因数据序列S
’
存储。6.一种基于标签数据生长基因的数据存储方法,其特征在于包括:261、判断数据序列S是否满足扫描条件,如果是,转步骤262;否则,转步骤265;262、使用数据序列S扫描标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置;263、用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这些本次扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数;264、在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S,转步骤261;265、组织每一次扫描结果参数,生成原始数据序列S的生长基因序列;266、用...
【专利技术属性】
技术研发人员:白杰,
申请(专利权)人:江苏数字产权交易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。