一种适用流式处理的大规模数据连续分析系统技术方案

技术编号:7475710 阅读:282 留言:0更新日期:2012-07-04 19:01
本发明专利技术公开一种适用流式处理的大规模数据连续分析系统,包括元数据管理模块,用于管理数据表和数据库的元信息;查询计划生成模块,用于接收查询请求,生成优化的查询计划;数据导入任务生成模块,用于接收数据导入请求,生成数据导入MR作业集;增量处理模块,用于并行地增量地提交Hadoop系统数据导入和查询作业;MR消息处理模块,用于接收Hadoop系统的Map或Reduce函数的结果,将结果输出给Reduce端或下一个作业;数据库连接模块,用于作为Hadoop系统和数据库之间的接口。本发明专利技术使用Hadoop系统将各节点中的数据库有机组织在一起,并发地执行数据导入和数据查询,使用管道技术改进MapReduce(MR)执行流程,使得数据查询以连续的流水的方式执行,大大缩短了大规模数据分析的时间。

【技术实现步骤摘要】

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:金海赵峰袁平鹏张冬洁
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术