当前位置: 首页 > 专利查询>白杰专利>正文

数据字典的生成方法技术

技术编号:30702977 阅读:111 留言:0更新日期:2021-11-06 09:42
本发明专利技术提供了一种数据字典的生成方法,该方法从输入的样本数据S的一个起点位置按序增量取得索引数据串Ck,使用该索引数据串Ck扫描输入数据S的剩余位,记录Ck以及数据长度、重复次数等参数,最后得到重复数据段的集合,从所述集合中的数据段中找到最佳数据段,用所述最佳数据段及其标签生成标签数据库。佳数据段及其标签生成标签数据库。佳数据段及其标签生成标签数据库。

【技术实现步骤摘要】
数据字典的生成方法


[0001]本专利技术涉及一种数据处理
,尤其是数据字典的生成方法。

技术介绍

[0002]在数据传输的各个层次,减少传输重复数据的传输都具有重要意义。而减少数据重复传输的关键,在于如何获知哪些数据是重复的,以及在数据接收端迅速且无瑕疵地的恢复数据发送端的原始数据。对于静态数据,即内容确定的数据集合,如果能够获知需要重复传输的数据或数据集合,为重复的数据分配一个标签或标识,就可以用所述标签替代重复的数据进行传输,从而减少数据的重传以及在数据接收端恢复原始数据。而且,标签的长度和重复数据长度的比值越小,数据传输效率就越高。而对于动态数据,即内容不确定的数据集合,则需要恰当地分割数据以获得重复数据,以及为所述重复数据分配一个标签。
[0003]因此,需要预先获知重复概率高的数据段,将这些数据段和标识它们的互不重复的标签绑定存储到一个数据库,就可以实现对任何数据段的标签标识。
[0004]在传统的方法中,一般利用某个特定领域的数据特性,根据经验和大量数据试验查找这样的重复数据段。例如,采用滑动窗口技术从一个方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.数据字典的生成方法,其特征在于包括:A、对输入的样本数据S,从一个方向确定一个起点位置i;B、判断位置i是否为输入数据S的尾部,如果是,输出失败信息,结束;否则转步骤C;C、使用位置i到数据S尾部的数据生成待处理数据串Si,Ck=Si的前k位,1≤k≤[j/2],令j等于Si的长度;其中,[]为取小数点前面整数部分的取整计算符号;D、使用Ck从Si的k+1位起扫描剩余位,记录Ck,与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,其中,m为大于1的整数;E、判断k是否小于[j/2],如果是,则转步骤F;否则转步骤G;F、使用Ck从Si大于k位的Lm位置起扫描k位数据,记录Ck,与Ck相同的数据段的起点位置Lm,以及数据长度、重复次数;令k=k+1,Ck=Si的前k位,转步骤E;G、根据扫描得到的结果,将数据长度和/或重复次数最佳的Ck、数据长度、重复次数,以及为其分配的标签存储到标签数据库。2.如权利要求1所述的数据字典的生成方法,其特征在于:如果标签数据库中已经存在一个与Ck相同的数据段,则将该数据段对应的重复次数计数器加1。3.如权利要求2所述的数据字典的生成方法,其特征在于:利用重复次数计数器的值和/或数据段的长度值优化标签数据库。4.数据字典的生成方法,其特征在于包括:A、对输入的样本数据S,从一个方向确定一个起点位置i;B、判断位置i是否为输入数据S的尾部,如果是,转步骤H;否则转步骤C;C、使用位置i到数据S尾部的数据生成待处理数据串Si,Ck...

【专利技术属性】
技术研发人员:白杰
申请(专利权)人:白杰
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1