多维度分组运算方法及系统技术方案

技术编号:10458528 阅读:123 留言:0更新日期:2014-09-24 14:30
本申请提供一种多维度分组运算方法及系统。所述多维度分组运算方法,包括:对海量数据以分布式进行分片以形成多个数据分片;在每个数据分片中,按照每个维度对数据创建索引,将创建的多个所述索引生成为索引文件;在每个数据分片中,使用所述索引文件对所述数据进行在线多维度分组运算;以及对所述每个数据分片的运算结果进行合并运算。通过采用本申请,能够实现对海量数据进行在线多维度分组的运算,使得可在毫秒级时间内返回对10亿级别的海量数据进行的多维度分组运算结果。

【技术实现步骤摘要】
多维度分组运算方法及系统
本申请涉及数据处理
,尤其涉及一种对海量数据执行的多维度分组运算 方法及系统。
技术介绍
当前,在数据仓库的应用系统中有各种各样的对海量数据进行多维度分组的分析 需求。所谓的多维度分组就是以多个维度对海量数据(10亿级别的数据)进行分组,并对分 组后的结果进行汇总计算,汇总运算包括求sum、max、min、avg等。面对各种分析需求,以 往采用了分布式的离线计算方式。例如,传统的Map-Reduce计算方式由于是离线计算,所 以延迟性很高。而作为在线的应用系统,其对服务响应时间要求较高,尤其是对于应用多维 度分组的在线系统而言,要求在毫秒级时间内返回分析结果。因而,传统的离线计算方式无 法应用于服务响应时间较高的在线系统。 此外,Hadoop离线计算是一种能够对大量数据进行分布式处理的分布式计算平 台,在对海量数据的多维度统计分析运算中要借助于Hadoop的离线计算能力,因为传统关 系型数据库是无法计算大规模数据,然而众所周知基于Hadoop计算是一种高吞吐、高延迟 的运算,该方式无法满足用户在线分析的需求。目前,对本文档来自技高网...

【技术保护点】
一种对海量数据的多维度分组运算方法,包括:对海量数据以分布式进行分片以形成多个数据分片;在每个数据分片中,按照每个维度对数据创建索引,将创建的多个所述索引生成为索引文件;在每个数据分片中,使用所述索引文件对所述数据进行在线多维度分组运算;以及对所述每个数据分片的运算结果进行合并运算。

【技术特征摘要】
1. 一种对海量数据的多维度分组运算方法,包括: 对海量数据以分布式进行分片以形成多个数据分片; 在每个数据分片中,按照每个维度对数据创建索引,将创建的多个所述索引生成为索 引文件; 在每个数据分片中,使用所述索引文件对所述数据进行在线多维度分组运算;以及 对所述每个数据分片的运算结果进行合并运算。2. 根据权利要求1所述的方法,还包括: 接收来自用户端的与预定多个维度相关的查询请求,并将所述查询请求发送到每个数 据分片中;以及 将所述合并运算的结果返回给用户端, 在每个数据分片中,使用所述索引文件对所述数据进行在线多维度分组运算是按照所 述查询请求进行的。3. 根据权利要求2所述的方法,其中,所述每个数据分片具有多个文档, 所述在线多维度分组运算包括: 在每个数据分片中,从所述索引文件中获取多个与所述预定多个维度中的每个维度对 应的枚举值表; 建立所述预定多个维度的分组结果和与所述查询请求对应的运算结果之间的对应关 系; 按照每个所述文档的序号,从多个所述枚举值表中分别获取与所述预定多个维度对应 的维度值,并将获取到的多个所述维度值进行维度组合; 使用所述对应关系,根据维度组合的结果来计算所述与所述查询请求对应的运算结 果。4. 根据权利要求3所述的方法,其中,所述在线多维度分组运算还包括:对与所述查询 请求对应的运算结果进行排序的步骤。5. 根据权利要求1所述的方法,其中,在所述对海量数据以分布式进行分片的步骤中, 使用MurmurHash运算将海量数据划分为多个数据分片。6. 根据权利要求1所述的方法,其中,所述索引是按照每个维度生成的倒排词表。7. 根据权利要求6所述的方法,其中,所述倒排词表中存储有每个维度值与所述文档 的序号之间的映射关系。8. -种对海量数据的多维度分组运算系统,包括: 数...

【专利技术属性】
技术研发人员:郑博文袁俊强
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1