本发明专利技术公开一种适用流式处理的大规模数据连续分析系统,包括元数据管理模块,用于管理数据表和数据库的元信息;查询计划生成模块,用于接收查询请求,生成优化的查询计划;数据导入任务生成模块,用于接收数据导入请求,生成数据导入MR作业集;增量处理模块,用于并行地增量地提交Hadoop系统数据导入和查询作业;MR消息处理模块,用于接收Hadoop系统的Map或Reduce函数的结果,将结果输出给Reduce端或下一个作业;数据库连接模块,用于作为Hadoop系统和数据库之间的接口。本发明专利技术使用Hadoop系统将各节点中的数据库有机组织在一起,并发地执行数据导入和数据查询,使用管道技术改进MapReduce(MR)执行流程,使得数据查询以连续的流水的方式执行,大大缩短了大规模数据分析的时间。
【技术实现步骤摘要】
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:金海,赵峰,袁平鹏,张冬洁,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。