一种海量数据快速查询的方法技术

技术编号:13161376 阅读:70 留言:0更新日期:2016-05-10 08:49
本发明专利技术提供一种海量数据快速查询的方法,采用基于内存计算的分布式框架的查询方式,实现海量数据快速查询的方法,提高查询数据效率,充分利用计算机资源;该方法的设计结构包括:基于内存集群模块、分布式处理模块。本发明专利技术的结构设计主要考虑海量数据查询不便的问题。为了使得海量数据查询过程更加便捷、高效,本文使用快速数据利用及并行处理的思想,采用了基于内存计算的分布式框架的查询方式,实现了一种海量数据快速查询的方法。从而提高查询数据效率,充分利用计算机资源。

【技术实现步骤摘要】

本专利技术涉及数据查方法,具体涉及。
技术介绍
在科技高速发展的今天,互联网以不同的方式影响着我们的生活,人们的学习、工作和生活已经离不开互联网。人们可以通过网络相互交流、工作,寻找有价值的数据,从而提升我们的工作效率及生活水平,改善人们的生活方式及工作学习方式。但随着网络时代的快速发展,每天产生的数据呈现指数型的剧增。通过分析大数据,可以方便用户应对工作中的困难,如发现工作中的缺陷、流程业务的不足等,从而修正缺陷,提供良好的服务。分析处理海量数据可以帮助企业或个人甚至国家解决难题,使得他们更快的做出决策。但是在大量的数据中,收集、存储、处理等过程都带来了巨大的挑战,单台的计算机已经无法满足现状,传统的计算处理数据也无法满足海量数据的需求,能够快速提取海量数据中的有用信息是至关重要的。
技术实现思路
本专利技术的技术任务是针对现有技术的不足,提供。本方法使用快速数据利用及并行处理的思想,采用了基于内存计算的分布式框架的查询方式,实现了,从而提高查询数据效率,充分利用计算机资源。本专利技术解决其技术问题所采用的技术方案是: ,采用基于内存计算的分布式框架的查询方式,实现海量数据快速查询的方法,提高查询数据效率,充分利用计算机资源;该方法的设计结构包括:基于内存集群模块、分布式处理模块。基于内存集群模块是通过将数据导入到内存,允许内存中保存数据集,方便高效地重复利用,减少了磁盘中数据切换到内存的开销,加快了运行速度。分布式处理模块是通过查询编译器解析查询语句并生成对应的抽象语法树,然后将其转化为逻辑计划及基本逻辑优化,优化器将应用优化规则到各个独立的分区中,创建相应的物理计划,最后通过现有的操作分布式的执行相应的物理计划,数据可以并行查询处理,提高查询效率。本专利技术的与现有技术相比,所产生的有益效果是,(1)允许数据在内存中保存并高效地重复利用,保证了数据在处理过程中的快速及高效; (2)使用分布式处理数据的模式,使得数据可以并行查询处理,大大提高了查询效率。【附图说明】附图1一种海量数据快速查询方法的框架图;附图2—种海量数据快速查询方法的流程图。【具体实施方式】下面结合附图对本专利技术的作以下详细地说明。,采用基于内存计算的分布式框架的查询方式,实现海量数据快速查询的方法,提高查询数据效率,充分利用计算机资源;该方法的设计结构包括:基于内存集群模块、分布式处理模块。基于内存集群模块是通过将数据导入到内存,允许内存中保存数据集,方便高效地重复利用,减少了磁盘中数据切换到内存的开销,加快了运行速度。分布式处理模块是通过查询编译器解析查询语句并生成对应的抽象语法树,然后将其转化为逻辑计划及基本逻辑优化,优化器将应用优化规则到各个独立的分区中,创建相应的物理计划,最后通过现有的操作分布式的执行相应的物理计划,数据可以并行查询处理,提高查询效率。实施例下面参照附图,对本专利技术的内容以一个具体实例来描述的过程。正如
技术实现思路
中所描述的,本专利技术中一种海量数据快速查询方法的设计和实现包括两个模块,分别是基于内存集群模块和分布式处理模块。一种海量数据快速查询方法的框架图如附图1所示。首先在五个节点的服务器上安装操作系统Centos6.3,其中五个节点都是128G内存。然后将五个节点设置成无密码登陆,用于组建集群。按照Spark依赖的环境准备并安装部署集群,同时安装部署Shark。然后安装hadoop组件如hdfs。此时,集群环境准备完毕。—种海量数据快速查询方法的流程图如附图2所示,将查询的数据集导入到一张表中,使用CREATE TABLE语句,通过LOAD DATA加载数据所在的文件路径。然后创建现有表的缓存表,并设置属性"shark, cache" = 〃true〃。通过SQL语句对表进行相应的查询。Shark可以通过SQL语句进行解析并将执行相应的物理计划,完成快速的查询,提高查询效率。【主权项】1.,其特征在于采用基于内存计算的分布式框架的查询方式,实现海量数据快速查询的方法,提高查询数据效率,充分利用计算机资源;该方法的设计结构包括:基于内存集群模块、分布式处理模块; 基于内存集群模块是通过将数据导入到内存,允许内存中保存数据集,方便高效地重复利用,减少了磁盘中数据切换到内存的开销,加快了运行速度; 分布式处理模块是通过查询编译器解析查询语句并生成对应的抽象语法树,然后将其转化为逻辑计划及基本逻辑优化,优化器将应用优化规则到各个独立的分区中,创建相应的物理计划,最后通过现有的操作分布式的执行相应的物理计划,数据可以并行查询处理,提高查询效率。【专利摘要】本专利技术提供,采用基于内存计算的分布式框架的查询方式,实现海量数据快速查询的方法,提高查询数据效率,充分利用计算机资源;该方法的设计结构包括:基于内存集群模块、分布式处理模块。本专利技术的结构设计主要考虑海量数据查询不便的问题。为了使得海量数据查询过程更加便捷、高效,本文使用快速数据利用及并行处理的思想,采用了基于内存计算的分布式框架的查询方式,实现了。从而提高查询数据效率,充分利用计算机资源。【IPC分类】G06F17/30【公开号】CN105488155【申请号】CN201510850706【专利技术人】孙志云, 郭美思 【申请人】浪潮集团有限公司【公开日】2016年4月13日【申请日】2015年11月30日本文档来自技高网
...

【技术保护点】
一种海量数据快速查询的方法,其特征在于采用基于内存计算的分布式框架的查询方式,实现海量数据快速查询的方法,提高查询数据效率,充分利用计算机资源;该方法的设计结构包括:基于内存集群模块、分布式处理模块;基于内存集群模块是通过将数据导入到内存,允许内存中保存数据集,方便高效地重复利用,减少了磁盘中数据切换到内存的开销,加快了运行速度;分布式处理模块是通过查询编译器解析查询语句并生成对应的抽象语法树,然后将其转化为逻辑计划及基本逻辑优化,优化器将应用优化规则到各个独立的分区中,创建相应的物理计划,最后通过现有的操作分布式的执行相应的物理计划,数据可以并行查询处理,提高查询效率。

【技术特征摘要】

【专利技术属性】
技术研发人员:孙志云郭美思
申请(专利权)人:浪潮集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1