当前位置: 首页 > 专利查询>于果鑫专利>正文

一种基于可扩展节点集群的大数据分析处理系统技术方案

技术编号:19680290 阅读:21 留言:0更新日期:2018-12-08 05:52
本实用新型专利技术公开了一种基于可扩展节点集群的大数据分析系统,其特征在于,其包括OLAP数据库层、OLAP服务器层和应用层,所述的OLAP数据库层采用可扩展节点集群的分布式数据库集群,按照维表和事实表方式组织数据;所述的OLAP服务器层将来自OLAP数据库层的底层数据定义为数据立方体,数据立方体通过OLAP多维引擎与应用层交互;所述的应用层可与OLAP服务器层交互,应用层将用户查询请求发送给OLAP服务器层,OLAP服务器层获取并解析用户查询请求,然后将查询结果返回给应用层。

【技术实现步骤摘要】
一种基于可扩展节点集群的大数据分析处理系统
本技术涉及数据分析领域,具体为一种基于可扩展节点集群的大数据分析处理系统。
技术介绍
企业大数据的特点是数据规模巨大、数据量增长迅速,这使得数据的存储、处理和分析面临严峻挑战。解决容量和性能瓶颈的方法之一就是传统的scale-up模式,即升级数据库服务器的内存、CPU、磁盘,将SATA盘换成SSD盘等方式,但是服务器条件的改善并没有换来性能的线性增长。反观分布式数据库的scale-out方式,通过分布式处理方式,把数据分散到分布式系统的各个节点上并行处理,其扩展性更强,性价比也更高。SMP架构的所有资源都是共享的,这导致了其扩展能力十分有限,随着CPU数量的增加,内存访问冲突也大量增加,使CPU性能大幅度降低,因此不适用于系统的扩展。Greenplum作为一种分布式关系型数据库集群,自2005年发布以来,受到了广泛关注。特别是2015年开源之后,其开源社区在国内外拥有了很高的知名度。Greenplum采用了MPP架构,系统的可伸缩性和容错性较好,包括阿里巴巴、中信银行在内的许多知名企业都选择了部署Greenplum系统。Greenplum数据库被认为是业界最高性价比的数据仓库解决方案。近年来,OLAP技术开始成为数据库研究领域的热点,它最初由IBM公司的E.F.Codd于1993年提出。OLAP建立在数据仓库的基础之上,用来实现数据的多维分析,满足了企业的实际需求,为企业决策提供了支撑。有关OLAP的解决方案,目前比较流行的主要有基于SAS的OLAP系统、基于Oracle的OLAP系统和基于Microsoft的OLAP系统等。虽然国外的这些产品比较成熟,但由于习惯、语言和价格等因素的影响,不一定适用于国内的企业。一个好的OLAP分析系统必须具有足够的可扩展性和通用性,它应该可以方便地与各类大型数据仓库系统集成,而不是依赖于某个具体的DBMS,同时对客户端的第三方软件尤其是决策支持软件提供友好的接口。在OLAP数年的发展过程中,遇到了一些阻碍:传统的OLAP技术,前端查询默认标准是MDX,不够普及和易用。OLAP软件在使用前需设计好模型,在此相关关系的数据范围内进行操作,这不足以应对业务需求的变换,可用性不高。OLAP可视化能力较弱,不支持SQL查询。针对以上问题,OLAP出现了许多新的技术实现,例如可视化OLAP、大数据OLAP和办公OLAP技术。遵从OLAP分析的三个原则:多维、灵活交互和高速响应。如今,OLAP已成为商业智能领域决策支持方面非常重要的工具。国内外对OLAP系统方面的研究也越来越多,成果包括业界著名的开源OLAP引擎Mondrain、多维分析展示平台Saiku等。当前流行的OLAP分析工具有很多,但也存在一些缺点,例如价格昂贵,企业的安全性得不到保障等。
技术实现思路
1.要解决的技术问题针对现有技术中存在的问题,本技术的目的在于提供一种基于可扩展节点集群的大数据分析处理系统,根据用户的数据分析需求,设计出满足商业智能(BI)领域需要的OLAP分析系统。2.技术方案为解决上述问题,本技术采用如下的技术方案。一种基于可扩展节点集群的大数据分析处理系统,其特征在于,其包括OLAP数据库层、OLAP服务器层和应用层,所述的OLAP数据库层采用可扩展节点集群的分布式数据库集群,按照维表和事实表的方式组织数据,将来自OLAP数据库层的底层数据定义为数据立方体,所述的数据立方体通过OLAP多维引擎与所述的应用层交互;其中,所述的OLAP多维引擎包括:所述的OLAP服务器层用于数据的存储和调取,其包括:设置有多个数据节点的备份库和服务器,该服务器用于临时存储数据文件并向所述备份库请求可用的数据节点;ROLAP设计器,用于定义多个区域,所述ROLAP设计器至少包括其中的一数据集区域和一设计面积区域;信息获取器,用于在所述数据集区域获取多维数据库的数据模式信息,并将所述获取的数据模式信息以列表的方式在所述设计面积展现;模式分析器,用于根据所述获取的数据模式信息,建立多维数据库的ROLAP分析模式;扩展点集群组织器,用于根据已建立的多维数据库的ROLAP分析模式组织多维数据库的扩展点集群模型,并将组织的多维数据库的所述扩展点集群模型存储于语义对象存储文件中;信息提示器,用于当所述数据集区域的数据集节点上不存在输入的事实表名称时,提示获取信息失败;所述的应用层可与OLAP服务器层交互,应用层将用户查询请求发送给OLAP服务器层,OLAP服务器层获取并解析用户查询请求,然后将查询结果返回给所述应用层;其中,所述的查询请求基于关系数据库的ROLAP,包括:接收装置,用于接收用户的数据查询请求;确定装置,用于确定所述数据查询请求所对应的待查询数据的标识信息;查询路径装置,用于根据确定出的所述标识信息,在预先建立的多维数据关系模型中,确定该标识信息所对应的查询路径;查询处理装置,用于根据所述查询路径以及所述标识信息进行数据查询,生成查询结果;数据关系装置,用于预先选定数据库中的事实表,将选定出的所述事实表作为主数据集,并确定该主数据集中的各属性信息,根据所述各属性信息,在所述数据库中确定各属性信息对应的各关联数据表,其中,所述关联数据表包括事实表和/或维表;将确定出的各关联数据表作为子数据集,建立各子数据集与所述主数据集之间的数据关系,形成所述多维数据关系模型。其中,所述的服务器与备份库协同合作,所述的服务器获取所述主数据集的各单个数据块并依据单个数据块的大小分块以得到多个数据块,将第一数据块和第二数据块发送至第一可扩展节点,所述备份库控制所述第一可扩展节点选取与其相邻的第二可扩展节点,将所述第一数据块发送至所述第二可扩展节点;并将第三数据块发送至第一可扩展节点,所述备份库用于控制第一可扩展节点将所述第二数据块发送至所述第二可扩展节点,第二可扩展节点选取与其相邻的第三可扩展节点,将所述第一数据块发送至所可扩展述第三节点;重复上述过程直至全部数据块发送完毕,并使每个数据块创建N个副本;进一步的,所述的OLAP多维引擎采用ROLAP服务器。进一步的,所述的OLAP数据库包括通过互联网络进行连接的多个数据节点、控制节点和客户端,所述的数据节点相互独立,控制节点负责逻辑控制和与客户端进行交互,客户端获取客户数据并对数据进行计算分析。进一步的,所述的数据节点采用JDBC方式、由执行效率跟踪装置完成,包括:连接单元、抓取单元、解析单元、分析单元,所述连接单元,用于通过JDBC,建立与数据库的连接,向数据库发起SQL查询请求;所述抓取单元,用于通过客户端内嵌到需要监控的WEB中间件或WEB容器,对JDBC中运行的SQL语句进行抓取,写入抓取到的JDBC中运行的SQL语句到分析数据库、或以文本方式对抓取到的JDBC中运行的SQL语句进行存储;所述解析单元,用于解析所述存储的SQL语句,根据SQL的耗费时间,以及语法结构,解析所述存储的SQL语句,得出SQL语句执行的效率情况;所述分析单元,用于根据所述得出的SQL语句执行的效率情况,定位分析每个SQL语句执行效率节点的信息,定位出关联的SQL语句以及关联的数据库表,并根据SQL的耗费时间罗列出最需要优化的SQL本文档来自技高网
...

【技术保护点】
1.一种基于可扩展节点集群的大数据分析处理系统,其特征在于,其包括OLAP数据库层、OLAP服务器层和应用层,所述的OLAP数据库层采用可扩展节点集群的分布式数据库集群,通过ROLAP服务器与所述的应用层交互;所述的OLAP服务器层包括设置的多个数据节点的备份库和服务器;其中,所述的ROLAP服务器包括:至少包括一数据集区域和一设计面积区域的ROLAP设计器;用于在所述数据集区域获取多维数据库的数据模式信息,并将所述获取的数据模式信息以列表的方式在所述设计面积展现的信息获取器;用于根据所述获取的数据模式信息,建立多维数据库的ROLAP分析模式的模式分析器;用于根据已建立的多维数据库的ROLAP分析模式组织多维数据库的扩展点集群模型,并将组织的多维数据库的所述扩展点集群模型存储于语义对象存储文件中的扩展点集群组织器;用于当所述数据集区域的数据集节点上不存在输入的事实表名称时,提示获取信息失败的信息提示器;所述的应用层可与所述的OLAP服务器层交互,交互通过用户查询请求实现,所述实现用户查询请求的装置包括:用于接收用户的数据查询请求的接收装置;用于确定所述数据查询请求所对应的待查询数据的标识信息的确定装置;用于根据确定出的所述标识信息,在预先建立的多维数据关系模型中,确定该标识信息所对应的查询路径的查询路径装置;用于根据所述查询路径以及所述标识信息进行数据查询,生成查询结果的查询处理装置;用于预先选定数据库中的事实表,将选定出的所述事实表作为主数据集,并确定该主数据集中的各属性信息,根据所述各属性信息,在所述数据库中确定各属性信息对应的各关联数据表的数据关系装置。...

【技术特征摘要】
1.一种基于可扩展节点集群的大数据分析处理系统,其特征在于,其包括OLAP数据库层、OLAP服务器层和应用层,所述的OLAP数据库层采用可扩展节点集群的分布式数据库集群,通过ROLAP服务器与所述的应用层交互;所述的OLAP服务器层包括设置的多个数据节点的备份库和服务器;其中,所述的ROLAP服务器包括:至少包括一数据集区域和一设计面积区域的ROLAP设计器;用于在所述数据集区域获取多维数据库的数据模式信息,并将所述获取的数据模式信息以列表的方式在所述设计面积展现的信息获取器;用于根据所述获取的数据模式信息,建立多维数据库的ROLAP分析模式的模式分析器;用于根据已建立的多维数据库的ROLAP分析模式组织多维数据库的扩展点集群模型,并将组织的多维数据库的所述扩展点集群模型存储于语义对象存储文件中的扩展点集群组织器;用于当所述数据集区域的数据集节点上不存在输入的事实表名称时,提示获取信息失败的信息...

【专利技术属性】
技术研发人员:于果鑫
申请(专利权)人:于果鑫
类型:新型
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1