【技术实现步骤摘要】
本专利技术涉及。
技术介绍
随着大数据时代的来临,数据以爆炸式的方式急速增长,这给数据存储体系带来 了极大的挑战。在数据格式上,传统的记录型数据仍然是主要的信息数据组织格式,典型代 表有严格数据模式的关系型数据库数据,还有半结构化的JS0N数据格式和XML格式。他们 的特点如下: 1)对于经典的关系型数据库数据,其数据模式规范在海量数据存储时,其严格的 数据存储要求会严重降低数据库性能,造成非常大的数据响应延时。 2)对于JS0N以及XML时现在流行的数据格式,以其半结构化的存储格式,可以灵 活表示数据。但一条这类数据只记录一条信息,当有多条信息是相似的时候,也需要多条数 据来存储,浪费了存储空间。 数据编码也是压缩数据存储空间的重要方法,传统的数值数据编码方法有游程编 码和变成无符号整数编码varint编码。 1)游程编码主要用于有序数据集合中,数据重复出现的压缩存储优化。传统游程 码的原理为将连续重复出现的数据只存储一个,紧跟其后的是该数据的重复次数。如有以 下一维数据集合: 采用传统游程编码后为: 可以看到数据存储总量确实有所减少,这在集合中数 ...
【技术保护点】
一种记录型数据存储空间的优化方法,其特征在于,通过对记录型数据的去重和编码来实现存储空间的优化,所述优化方法包括如下步骤:(1)数据预处理所述数据预处理包括字段分组和格式转换,所述字段分组为将记录型数据的字段进行分组,所述格式转换为将字段组转化为系统所需的预处理格式;(2)数据去重与字典压缩将预处理后的数据再次分组,每一个组为一个处理组,每个处理组内使用归并与哈希的方法,在每个处理组中将产生多棵记录树,记录树的节点为字段组,记录树的节点为字符表示的无符号整数,使用字典编码将每个字段转化成一个字典;(3)记录树编码在记录树中,使用优化的无符号整数编码方法对每个记录树的节点进行 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:尹建伟,姚敏,邓水光,李莹,吴健,吴朝晖,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。