一种大数据在线交互式查询方法及系统技术方案

技术编号：12135993 阅读：56 留言：0更新日期：2015-09-30 18:40

本发明专利技术公开了一种大数据在线交互式查询方法及系统。通过改进MapReduce框架下Map和Reduce之间的数据传递规则，使得Map按照用户定义的计算窗口分块读取并计算计算窗口内的数据，然后直接把计算结果推送给Reduce端，Reduce端在处理完数据后立即返回给用户。以此实现大数据环境下，用户可以根据业务选取不同的属性定义计算窗口，流式返回各个窗口内的计算结果，实现交互式计算的目标。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息
，涉及一种大数据在线交互式查询方法及系统。
技术介绍
随着互联网技术和Web2.0的发展，全球数据量正在以惊人速度的增长。IDC预计，到2020年人类会产生超过40ZB的数据。各行业正在进入大数据时代。在大数据环境下，存在一种重要的查询方法:即针对一个区间内的数据进行计算，并需要在线返回每个数据区间内的查询结果，实现交互式查询的目标。例如查询2014:12:01到2014:12:30期间内，以天单位的历史环境监测记录日志，分析“APEC”期间环境的变化；统计大型购物网站在双“十二”期间不同时间段内的点击率，以获得高峰期购物网站的流量特征。上述计算的一个明显的特征是根据用户定义的一个数据区间长度，陆续获得各区间内的计算结果，并在线返回给用户。本专利技术中称用户定义的数据区间长度为计算窗口，计算窗口是通过字符串、数字、文件偏移量等标记描述的数据块的序列。当用户查询结果满足用户查询需求以后，可以实时终止查询任务，交互式查询的计算效率，节约后台计算资源。与上述计算模式相关的技术和系统包括大数据流计算系统Spark Streaming、大数据分析系统Hive、以及相关的MapReduce改进技术。Spark Streaming是在Spark平台基础上扩展的流计算的插件。Spark Streaming根据数据流到达的时间，预先设定时间间隔把数据流分解成一系列数据段，在每个数据段上执行Act1n (如reduce，take (η)等操作)，生成 Spark 中的 RDD(Resilient Distributed Dataset)数据...

【技术保护点】
一种大数据在线交互式查询方法，其步骤包括：1)用户根据业务需求定义与业务相关的计算窗口划分方法；2)根据所述计算窗口划分方法建立计算窗口与HDFS中存储的数据文件映射关系；3)修改Map Reduce框架下数据获取方式，由Reduce端实时返回每个计算窗口内的计算结果，以实现大数据环境下数据的在线交互式查询。

【技术特征摘要】

【专利技术属性】
技术研发人员：云晓春，王树鹏，吴广君，张晓宇，贾思宇，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人