一种动态的数据存储方法及装置制造方法及图纸

技术编号:11312662 阅读:107 留言:0更新日期:2015-04-16 14:50
本发明专利技术实施例提供一种动态的数据存储方法,包括:对待存储的数据进行整体元数据定义,定义所述待存储的数据中各个属性列的存储策略;将所述各个属性列按照键值对模型组织为不同的数据子集;根据所述属性列的存储策略为所述数据子集定义物理存储格式,并按所述物理存储格式存储所述数据子集。本发明专利技术实施例还提供了相应的动态的数据存储装置。使用本发明专利技术实施例公开的动态的数据存储方法和装置,通过分层、可配置的存储结构实现一种动态的数据存储方法,可同时满足大数据处理中“稀疏数据和稠密数据集”的存储需求。

【技术实现步骤摘要】
【专利摘要】本专利技术实施例提供一种动态的数据存储方法,包括:对待存储的数据进行整体元数据定义,定义所述待存储的数据中各个属性列的存储策略;将所述各个属性列按照键值对模型组织为不同的数据子集;根据所述属性列的存储策略为所述数据子集定义物理存储格式,并按所述物理存储格式存储所述数据子集。本专利技术实施例还提供了相应的动态的数据存储装置。使用本专利技术实施例公开的动态的数据存储方法和装置,通过分层、可配置的存储结构实现一种动态的数据存储方法,可同时满足大数据处理中“稀疏数据和稠密数据集”的存储需求。【专利说明】一种动态的数据存储方法及装置
本专利技术涉及计算机
,尤其涉及一种动态的数据存储方法及装置。
技术介绍
随着互联网、物联网以及ICT产业的高速发展,相关业务数据呈现出爆发式增长 的态势,据IDC报告,未来10年全球数据量将以40+%的速度增长。对中国移动经营分析系 统(下称经分系统)而言,随着互联网等新兴业务数据的引入,数据存储难度、系统支撑压力 陡增,而作为业务分析的核心系统,"经分系统"的支撑质量将直接影响领导决策,关乎公司 的运营与发展。 随着经分系统数据量的爆发式增长,如何对各类业务数据进行合理划分、高效存 储,实现支撑系统的高质量、低成本建设是目前亟需解决的问题,目前常用的数据存储方法 包括以下两种: 行存储:数据仓库系统的存储技术,由Oracle承载,以存储结构化数据为主,如: 产品、账单、服务、清单类业务数据。行存储的主要优势在于按元组直接存储,写数据的效率 较高;数据的完整性、可靠性高;适用〇ltp(〇n_Line Transaction Processing联机事务处 理系统)场景。 列存储:互联网数据平台的存储技术,由Hadoop Hbase承载,以存储结构化、半结 构化数据为主,如:网页数据、WAP清单类数据。列存储的主要优势在于数据读取时不存在 冗余列,数据命中率高;每个列(文件)的数据类型都是同质的,不存在二义性,数据解析效 率高;可获得较高的数据压缩比,针对稀疏数据的处理效果更为明显;模式变更成本低,理 论上可无限地扩充属性列;适用于olap (On-Line Analytical Processing联机分析处理) 场景。 行存储和列存储是目前经分系统采用的主流存储方案,但随着物联网、互联网等 "新兴业务数据"的引入,此方案的瓶颈逐渐显现,主要体现以下几个方面: 存储方案单一、存在技术短板;存储空间浪费情况严重;部分业务数据的存储方 案不够合理、灵活性差;无法实现稀疏数据和稠密数据的混合、高效存储;部分业务的数据 质量较差,对"缺失值"的处理不够准确。
技术实现思路
为了解决现有技术中数据存储方面存在的上述问题,本专利技术实施例提出一种动态 的数据存储方法和装置。 本专利技术的一个方面,提供一种动态的数据存储方法,包括: 对待存储的数据进行整体元数据定义,定义所述待存储的数据中各个属性列的存 储策略; 将所述各个属性列按照键值对模型组织为不同的数据子集; 根据所述属性列的存储策略为所述数据子集定义物理存储格式,并按所述物理存 储格式存储所述数据子集。 本专利技术的另一个方面,提供一种动态的数据存储装置,包括: 定义单元,用于对待存储的数据进行整体元数据定义,定义所述待存储的数据中 各个属性列的存储策略; 组织单元,用于将所述各个属性列按照键值对模型组织为不同的数据子集; 存储单元,用于根据所述属性列的存储策略为所述数据子集定义物理存储格式, 并按所述物理存储格式存储所述数据子集。 使用本专利技术实施例公开的动态的数据存储方法和装置,通过分层、可配置的存储 结构实现一种动态的数据存储方法,可同时满足大数据处理中"稀疏数据和稠密数据集"的 存储需求,解决了目前经分系统"存储方案单一"的问题,为物联网、互联网等海量数据存储 提供了一种灵活的存储方案,可有效支撑"新业务模式"下的数据存储与分析; RCFILE存储方法(先水平划分,再垂直划分)的内部结构复杂、模式变更代价高,t匕 较适合于"只读型"数据仓库,而本专利技术实现存储结构的分层定义、键值分离,结构简单、耦 合度低,可快速实现模式变更(如:"增加或删除列"仅需在"表格化软模式层"配置增加或 删除一个文件); RCFILE将"实体的所有属性列"按照"一个原则"处理(先水平划分,再垂直划分), 灵活度不够,而本专利技术可针对实体属性列的"数据特征"针对性地选择行存储或列存储,如: 针对实体的稀疏数据列选择列存储,实现存储节约,针对稠密数据列选择行存储,实现高效 写入; 针对物联网、互联网等业务普遍存在海量缺失数据的问题,本专利技术完成了缺失值 的类型定义,为提高大数据"分析质量"提供了一种有效的技术手段; 该专利技术的技术实现位于经分系统"信息服务域"的数据层,与上层业务应用之间通 过"透明访问层"实现数据交互,业务耦合度低、加工逻辑简明,完全满足经分数据仓库海量 数据存储访问需求。 【专利附图】【附图说明】 图1所示是本专利技术实施例提供的动态的数据存储方法示意图; 图2所示是本专利技术实施例提供的数据存储结构层次的示意图; 图3所示是本专利技术实施例提供的一种结构化的键值模型示意图; 图4所示是本专利技术实施例提供的数据对象的"多版本"数据存储结构示意图; 图5所示是本专利技术实施例提供的行列混合存储的整体实现逻辑示意图; 图6所示为本专利技术实施例提供的行存储的整体实现逻辑示意图; 图7所示是本专利技术实施例提供的列存储的整体实现逻辑示意图; 图8所示是本专利技术实施例提供的动态的数据存储装置的结构示意图。 【具体实施方式】 结合对现有技术的分析,构建一种既支持列存储、具有良好的读性能,又支持行存 储、具有良好的写性能,从而同时支持Oltp和Olap应用的"混合存储结构"存在巨大的现实 需求,本专利技术通过行列混合存储布局提供一种混合搭配的物理存储格式,不仅可实现实体 的行式存储或列式存储,同时在一个实体内部,可针对不同字段的稀疏、稠密等数据特征, 选择适合的行存储或列存储格式,从而实现动态的数据存储,为大数据处理提供一种动态 的数据存储方法,该方法既能适应传统稠密数据的特点,又可兼顾海量稀疏数据的存储需 求,解决了经分系统海量稀疏数据存储空间浪费的问题。 本专利技术重点支撑的典型存储场景的应用举例: 行存储:为获得更好的写性能,可将数据完整性、可靠性要求较高的实体配置为行 存储格式;如:经分系统的用户表、帐单表、订购关系表等; 列存储:为获得更好的统计分析性能,可将数据量大、模式变更频繁、缺失值较多 的实体配置为列存储格式;如:经分系统的wap网关表等; 行列混合存储: 在一个实体内部,可针对不同字段的稀疏、稠密等数据特征,选择适合的行存储或 列存储格式,从而实现行列混合的数据存储;如:将语音信令表的主叫号码、imsi、开始时 间等稠密数据列"按行存储",将源信令点、CGI码等稀疏数据列"按列存储"。 以下结合附图详细说明本专利技术实施例提供的动态的数据存储方法。 图1所示为本专利技术一个实施例提供的动态的数据存本文档来自技高网
...
一种动态的数据存储方法及装置

【技术保护点】
一种动态的数据存储方法,其特征在于,包括:对待存储的数据进行整体元数据定义,定义所述待存储的数据中各个属性列的存储策略;将所述各个属性列按照键值对模型组织为不同的数据子集;根据所述属性列的存储策略为所述数据子集定义物理存储格式,并按所述物理存储格式存储所述数据子集。

【技术特征摘要】

【专利技术属性】
技术研发人员:苏燕赵洪松关德军李振嘉段云峰李红燕张美鸥王依兴孙德志迟建德李宏昌王雅文
申请(专利权)人:中国移动通信集团黑龙江有限公司中国移动通信集团公司
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1