当前位置: 首页 > 专利查询>浙江大学专利>正文

一种记录型数据存储空间的优化与恢复方法技术

技术编号:12812042 阅读:47 留言:0更新日期:2016-02-05 11:25
本发明专利技术涉及一种记录型数据存储空间的优化与恢复方法,所述记录型数据存储空间的优化方法通过归并与哈希的方法,实现记录数据的去重与字典压缩,通过优化的无符号整数编码方法来提高了无符号整数序列的存储效率,从而优化了记录型数据存储空间;通过与优化的无符号整数编码方法相对应的优化的无符号整数解码方法来恢复记录型数据。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
随着大数据时代的来临,数据以爆炸式的方式急速增长,这给数据存储体系带来 了极大的挑战。在数据格式上,传统的记录型数据仍然是主要的信息数据组织格式,典型代 表有严格数据模式的关系型数据库数据,还有半结构化的JS0N数据格式和XML格式。他们 的特点如下: 1)对于经典的关系型数据库数据,其数据模式规范在海量数据存储时,其严格的 数据存储要求会严重降低数据库性能,造成非常大的数据响应延时。 2)对于JS0N以及XML时现在流行的数据格式,以其半结构化的存储格式,可以灵 活表示数据。但一条这类数据只记录一条信息,当有多条信息是相似的时候,也需要多条数 据来存储,浪费了存储空间。 数据编码也是压缩数据存储空间的重要方法,传统的数值数据编码方法有游程编 码和变成无符号整数编码varint编码。 1)游程编码主要用于有序数据集合中,数据重复出现的压缩存储优化。传统游程 码的原理为将连续重复出现的数据只存储一个,紧跟其后的是该数据的重复次数。如有以 下一维数据集合: 采用传统游程编码后为: 可以看到数据存储总量确实有所减少,这在集合中数据大量连续重复时是有本文档来自技高网...

【技术保护点】
一种记录型数据存储空间的优化方法,其特征在于,通过对记录型数据的去重和编码来实现存储空间的优化,所述优化方法包括如下步骤:(1)数据预处理所述数据预处理包括字段分组和格式转换,所述字段分组为将记录型数据的字段进行分组,所述格式转换为将字段组转化为系统所需的预处理格式;(2)数据去重与字典压缩将预处理后的数据再次分组,每一个组为一个处理组,每个处理组内使用归并与哈希的方法,在每个处理组中将产生多棵记录树,记录树的节点为字段组,记录树的节点为字符表示的无符号整数,使用字典编码将每个字段转化成一个字典;(3)记录树编码在记录树中,使用优化的无符号整数编码方法对每个记录树的节点进行编码;(4)记录树集...

【技术特征摘要】

【专利技术属性】
技术研发人员:尹建伟姚敏邓水光李莹吴健吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1