基于Infobright的数据仓库和系统及其构建方法技术方案

技术编号:9718788 阅读:148 留言:0更新日期:2014-02-27 05:33
一种基于Infobright的数据仓库,包括:源数据仓,其存放从关系型数据库中抽取过来的原始数据;加工仓,其具有brighthouse引擎,所述加工仓为一主多从的集群架构,包括一个加工仓主库和多个加工仓从库,所述加工仓提取源数据仓中的原始数据,并对所述原始数据进行加工处理和存储。本发明专利技术还提供一种基于Infobright的数据仓库系统,其包括所述的基于Infobright的数据仓库;关系型数据库,其用于产生业务有关的原始数据;数据导入单元,其将所述原始数据导入到所述数据仓库中。本发明专利技术还提出了基于Infobright的数据仓库和系统的构件方法。本发明专利技术的数据仓库具有高性能且可扩展的优点。

【技术实现步骤摘要】

本专利技术涉及数字数据处理技术。
技术介绍
数据仓库(Data Warehouse)是为企业进行分析性报告和决策支持的数据集合。构建数据仓库的意义在于:1.有效集成企业内部和外部数据,为企业各层决策提供数据依据;2.将分散的,异构数据库系统的数据统一集成起来;3.可以进行企业的利润与成本分析;4.规范管理,优化流程,决策支持。常见的构建数据仓库的工具有IBM Cognos和SAP BO等。上述二者均采用集中式的单节点模式来构建数据仓库,这种类型的数据仓库的扩展性差。随着大数据时代的来临,数据的规模急剧扩大,有些已经达到TB级别,上述传统数据仓库已经越来越不能满足使用需要。现有技术方案的缺陷表现在如下几个方面:1.因为在架构上采用集中式的单节点模式,因此水平扩展能力差,在高并发应用场景下无法水平扩展;2.数据量级支持有限,无法支持TB级以上的数据量,这样就满足不了电商、互联网等企业的海量数据分析;3.因为基于传统关系型数据库,所以在查询性能上很难有突破,这样在报表展现时用户体验会很差;4.费用昂贵,对企业来说是一笔不小的开销。
技术实现思路
基于现有技术的缺点,本专利技术提出一种基于Infobright的数据仓库的构建方法,包括:构建源数据仓,所述源数据仓存放从关系型数据库中抽取过来的原始数据;构建加工仓,所述加工仓具有brighthouse引擎,所述加工仓为一主多从的集群架构,包括一个加工仓主库和多个加工仓从库,所述加工仓提取源数据仓中的原始数据,并对所述原始数据进行加工处理和存储。本专利技术还提出一种基于Infobright的数据仓库系统的构建方法,包括:按照如上所述的方法构建基于Infobright的数据仓库;构建一关系型数据库,所述关系型数据库用于产生与业务有关的原始数据;构建一数据导入单元,所述数据导入单元将所述原始数据导入到所述数据仓库中。本专利技术还提出一种基于Infobright的数据仓库,包括:源数据仓,所述源数据仓存放从关系型数据库中抽取过来的原始数据;加工仓,所述加工仓具有brighthouse引擎,所述加工仓为一主多从的集群架构,包括一个加工仓主库和多个加工仓从库,所述加工仓提取源数据仓中的原始数据,并对所述原始数据进行加工处理和存储。本专利技术还提出一种基于Infobright的数据仓库系统,包括:如前所述的数据仓库;关系型数据库,所述关系型数据库用于产生业务有关的原始数据;数据导入单元,所述数据导入单元将所述原始数据导入到所述数据仓库中。本专利技术提出的数据仓库和数据仓库的构建方法基于Infobright,构建出高性能的且可扩展的数据仓库。本专利技术的优点如下:1.采用一主多从的分布式架构,可水平扩展,可以满足高并发需求;2.单一节点的Infobright就能支持30TB的数据量,而且还可扩展,因而可以支持真正的海量数据分析;3.1nfobright米用的是基于列存储技术,有别于传统的行存储技术,在分析报表常用的聚合函数的查询性能上表现优异,在查询性能上大大优于现有技术方案;4.本专利技术采用Infobright社区版,可以免费使用,大大降低了成本。【附图说明】图1为本专利技术的基于Infobright的数据仓库系统的示意图;图2为本专利技术的基于Infobright的数据仓库系统的优选实施例的示意图;图3为本专利技术的基于Infobright的数据仓库系统的另一优选实施例的示意图;图4为本专利技术的基于Infobright的数据仓库的示意图;图5为本专利技术的基于Infobright的数据仓库的构建方法的示意图;图6为本专利技术的基于Infobright的数据仓库系统的构建方法的示意图。【具体实施方式】本专利技术的基于Infobright的数据仓库系统的结构如图1所示。所述系统包括关系型数据库1、数据导入单元2、数据仓库3。关系型数据库I是业务的生产数据库,其生成整个业务的数据。数据导入单元2负责将关系型数据库I生成的数据导入到数据仓库3中。数据仓库3对数据进行处理并存储。优选地,所述系统还包括报表展示单元4,报表展示单元4包括报表服务端和报表客户端,数据仓库3为其数据源,报表展示单元4将数据仓库3中加工好的数据通过报表的方式展现出来。数据导入单元2被配置为执行如下将数据从关系型数据库I导入到数据仓库3的步骤:步骤I):数据导入单元2连接到关系型数据库I。具体为,配置关系型数据库I的连接参数(关系数据库的IP地址、用户名、密码、数据库名等),通过所述连接参数连接到关系型数据库I。步骤2):数据导入单元2配置数据传输参数(数据源、数据表、主键等)。步骤3):数据导入单元2根据所述步骤I)和步骤2)中的连接参数和数据传输参数将数据从关系型数据库I搬运到数据仓库3。如图2所示,在另一个优选实施例中,数据导入单元2被配置为执行如下将数据从关系型数据库I导入到数据仓库3的步骤:步骤I):数据导入单元2连接到关系型数据库I。具体为,配置关系型数据库I的连接参数(关系数据库的IP地址、用户名、密码、数据库名等),通过所述连接参数连接到关系型数据库I。步骤2):数据导入单元2配置数据传输参数(数据源、数据表、主键等)。步骤3):数据导入单元2的数据抽取平台根据所述步骤I)和步骤2)中的连接参数和数据传输参数将数据从关系型数据库I抽取到云存储(该云存储为一个基于云计算的存储空间)。步骤4):数据导入单元2的任务调度平台执行下载任务。所述任务调度平台通过调用API从云存储中下载数据到数据仓库3。任务调度平台是指任务调度控制台,其定时执行用shell脚本编写的任务。[0041 ] 如图3所示,在另一个优选实施例中,数据导入单元2由ETL(数据提取-转换-加载,Extraction-Transformation-Loading)工具构建,该ETL工具通过增量方式将数据导入到数据仓库3中。数据导入单元2利用了 ETL工具。数据导入单元2被配置为执行如下将数据从关系型数据库I导入到数据仓库3的步骤:步骤I)数据导入单元2连接到关系型数据库I。具体为,配置关系型数据库I的连接参数(关系数据库的IP地址、用户名、密码、数据库名等),通过所述连接参数连接到关系型数据库I。步骤2):数据导入单元2配置作为数据传输参数的ETL参数(数据源、数据表、主键、增量判断字段等)。步骤3):数据导入单元2根据所述步骤I)和步骤2)中的连接参数和数据传输参数,将关系型数据库I中的数据以文本文件方式(csv, txt等)抽取到云存储中。步骤4):数据导入单元2的任务调度平台调用API将文本文件从云存储中下载到数据仓库服务器。步骤5):数据导入单元2的任务调度平台将所述文本文件通过load data infile的方式下载到数据仓库中。图4显示了图1中所示的数据仓库3的结构。如图4所示,数据仓库3从逻辑上分为三个层次:源数据仓、加工仓和结果仓。下面对各个仓分别说明。源数据仓具有Infobright 的 brighthouse 引擎,Infobright 是开源的 MySQL 数据仓库解决方案,在Mysql的Innodb存储引擎基础上改造而成,采用列存储模式,引入了知识网格技术,具有高压缩比、高性能的聚合函数查询性能、支持TB级的海量数据等特点。源数据仓存放从关系本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201310582660.html" title="基于Infobright的数据仓库和系统及其构建方法原文来自X技术">基于Infobright的数据仓库和系统及其构建方法</a>

【技术保护点】
一种基于Infobright的数据仓库的构建方法,其特征在于,包括:构建源数据仓,所述源数据仓存放从关系型数据库中抽取过来的原始数据;构建加工仓,所述加工仓具有brighthouse引擎,所述加工仓为一主多从的集群架构,包括一个加工仓主库和多个加工仓从库,所述加工仓提取源数据仓中的原始数据,并对所述原始数据进行加工处理和存储。

【技术特征摘要】
1.一种基于Infobright的数据仓库的构建方法,其特征在于,包括: 构建源数据仓,所述源数据仓存放从关系型数据库中抽取过来的原始数据; 构建加工仓,所述加工仓具有brighthouse引擎,所述加工仓为一主多从的集群架构,包括一个加工仓主库和多个加工仓从库,所述加工仓提取源数据仓中的原始数据,并对所述原始数据进行加工处理和存储。2.根据权利要求1所述的基于Infobright的数据仓库的构建方法,其特征在于, 构建结果仓,所述结果仓具有MyISAM引擎,采用一主多从的集群架构,包括一个结果仓主库和多个结果仓从库,所述结果仓对加工仓加工完的数据进行汇总,作为汇总类报表的数据源。3.根据权利要求2所述的基于Infobright的数据仓库的构建方法,其特征在于,将结果仓主库构建为采用binlog复制模式将数据从结果仓主库复制到各个结果仓从库中。4.根据权利要求2所述的基于Infobright的数据仓库的构建方法,其特征在于,将加工仓主库构建为采用binlog复制模式将数据从加工仓主库复制到各个加工仓从库中。5.根据权利要求1所述的基于Infobright的数据仓库的构建方法,其特征在于,所述源数据仓被构建为,针对所述原始数据中的表,根据表中的主键字段和更新时间字段,从表中过滤出主键重复的记录中更新时间最新的一条记录,查询出所有主键不重复的记录集合,并通过load data outfile方式导出到文本文件中,该文本文件保存在源数据仓中。6.根据权利要求5所述的基于Infobright的数据仓库的构建方法,其特征在于,在所述加工仓主库中构建任务调度平台,所述加工仓被构建为:` 执行文件传输任务将所述文本文件从源数据仓传输到加工仓; 删除加工仓中的表中所有表结构,并重新创建新表; 执行load任务将所述文本文件通过load data infile方式导入到创建的所述新表中。7.—种基于Infobright的数据仓库系统的构建方法,其特征在于,包括: 按照权利要求1-6任意一项所述的方法构建基于Infobright的数据仓库; 构建一关系型数据库,所述关系型数据库用于产生与业务有关的原始数据; 构建一数据导入单元,所述数据导入单元将所述原始数据导入到所述数据仓库中。8.根据权利要求7所述的基于Infobright的数据仓库系统的构建方法,其特征在于,还包括: 构建一报表展不单兀,所述报表展不单兀包括报表服务端和报表客户端,报表展不单元将数据仓库中加工完的数据以报表的方式展现。9.根据权利要求7所述的基于Infobright的数据仓库系统的构建方法,其特征在于,所述原始数据以增量的方式从关系型数据库,经由所述数据导入单元,加载到所述数据仓库。10.根据权利要求9所述的基于Infobright的数据仓库系统的构建方法,其特征在于,所述数据导入单元被构建为包括ETL工具,所述数据导入单元被构建为执行下述步骤来完成所述加载: 步骤I):数据导入单元配置关系型数据库的连接参数,通过所述连接参数连接到关系型数据库;步骤2):数据导入单元配置数据传输参数; 步骤3):数据导入单元根据所述步骤I)和步骤2)中的连接参数和数据传输参数将数据从关系型数据库的数据以文本文件方式抽取到云存储中; 步骤4):数据导入单元的任务调度平台调用API将文本文件从云存储中下载到数据仓库; 步骤5):数据导入单元的任务调度平台将所述文本文件通过load data infile方式下载到数据仓库中。11.根据权利要求10所述的基于Infobright的数据仓库系统的构建方法,其特征在于,所述连接参数包括:关系数据库的IP地址、用户名、密码、数据库名;所述数据传输参数包括:数...

【专利技术属性】
技术研发人员:者文明李东
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1