一种基于大数据建模的BI应用系统技术方案

技术编号:24094588 阅读:20 留言:0更新日期:2020-05-09 09:41
本发明专利技术提供一种基于大数据建模的BI应用系统,包括:数据采集存储模块,DPI、业务侧、网元侧数据通过文件接口方式发送到Flume‑NG集群,将接收到的数据实时的通过hdfs方式汇聚到大数据分析平台;数据清洗模块,通过编写HQL脚本对数据进行清洗、转换,形成特征宽表;数据挖掘模块,基于特征宽表的数据建模进行模型开发、模型评估和模型应用;分析结果发布,模型应用的结果集存储在HBase中,数据的调用通过HBase API实现,数据的展现通过ECharts技术实现。本发明专利技术统一进行数据建模,建设集中的数据处理中心,提供强大的数据处理能力,保障系统的稳定运行,构建统一的BI应用中心,满足业务需求,体现数据价值。

A BI application system based on big data modeling

【技术实现步骤摘要】
一种基于大数据建模的BI应用系统
本专利技术属于大数据处理
,具体涉及一种基于大数据建模的BI应用系统。
技术介绍
商业智能(BusinessIntelligence,英文为简写为BI,即商业智能又名商务智能)的概念于1996年最早由加特纳集团(GartnerGroup)提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。BI不再仅仅是一种概念、一种技术,它更多的成为了一种业务层面的需求,为企业应用服务。BI管理的方法或产品的核心就是通过数据提取、整理、分析,将这些数据转化为有用的信息,辅助企业制定商业决策。现有技术中BI引用系统存在如下问题:脱离大数据体系,数据处理能力差,无法满足业务需求,没有统一的数据管理监控体系,无法保障系统的稳定运行。
技术实现思路
本专利技术的目的是提供一种基于大数据建模的BI应用系统,统一进行数据建模,建设集中的数据处理中心,提供强大的数据处理能力,保障系统的稳定运行,构建统一的BI应用中心,满足业务需求,体现数据价值。本专利技术提供了如下的技术方案:一种基于大数据建模的BI应用系统,包括:数据采集存储模块,DPI、业务侧、网元侧数据通过文件接口方式发送到Flume-NG集群,Flume-NG通过memory数据传输方式,将接收到的数据实时的通过hdfs方式汇聚到大数据分析平台;数据清洗模块,通过编写HQL脚本对数据进行清洗、转换,形成特征宽表;数据挖掘模块,基于特征宽表的数据建模采用SparkR,调用聚类、分类等算法,进行模型开发、模型评估和模型应用;分析结果发布,模型应用的结果集存储在HBase中,首先在HBase中新建存储结果集的HBase表,通过MapReduce生成HFile文件,然后通过BulkLoad方式入库,数据的调用通过HBaseAPI实现,数据的展现通过ECharts技术实现。优选的,大数据分析平台所要搭建的数据分析工具选择的操作系统为开源版的RedHat、Centos或者Debian作为底层的构建平台。优选的,数据采集存储模块的数据接入包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序的接入,数据接入的工具包括Flume、Logstash、数据运河系统和sqoop等。优选的,Sqoop将数据从文件或者传统数据库导入到分布式平台。优选的,数据建模分析还包括机器学习算法,包括贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。本专利技术的有益效果是:利用spark和hadoop技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强大的数据处理能力,满足数据的交互需求;同时通过sparkstreaming,可以有效满足企业实时数据的要求,构建企业发展的实时指标体系;同时为了更好的满足的数据获取需求,通过RDBMS,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛;对大数据明细查询需求,则通过构建HBase集群,提供大数据快速查询能力,满足对大数据的查询获取需求。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术系统结构示意图。具体实施方式如图1所示,一种基于大数据建模的BI应用系统,包括:数据采集存储模块,DPI、业务侧、网元侧数据通过文件接口方式发送到Flume-NG集群,Flume-NG通过memory数据传输方式,将接收到的数据实时的通过hdfs方式汇聚到大数据分析平台;数据清洗模块,通过编写HQL脚本对数据进行清洗、转换,形成特征宽表;数据挖掘模块,基于特征宽表的数据建模采用SparkR,调用聚类、分类等算法,进行模型开发、模型评估和模型应用;分析结果发布,模型应用的结果集存储在HBase中,首先在HBase中新建存储结果集的HBase表,通过MapReduce生成HFile文件,然后通过BulkLoad方式入库,数据的调用通过HBaseAPI实现,数据的展现通过ECharts技术实现。具体的,系统建立过程中,所需:(1)操作系统的选择:操作系统一般使用开源版的RedHat、Centos或者Debian作为底层的构建平台,要根据大数据平台所要搭建的数据分析工具可以支持的系统,正确的选择操作系统的版本。(2)搭建Hadoop集群:Hadoop作为一个开发和运行处理大规模数据的软件平台,实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心的设计是HDFS和MapReduce,HDFS是一个高度容错性的系统,适合部署在廉价的机器上,能够提供高吞吐量的数据访问,适用于那些有着超大数据集的应用程序;MapReduce是一套可以从海量的数据中提取数据最后返回结果集的编程模型。在生产实践应用中,Hadoop非常适合应用于大数据存储和大数据的分析应用,适合服务于几千台到几万台大的服务器的集群运行,支持PB级别的存储容量。Hadoop家族还包含各种开源组件,比如Yarn,Zookeeper,Hbase,Hive,Sqoop,Impala,Spark等。使用开源组件的优势显而易见,活跃的社区会不断的迭代更新组件版本,使用的人也会很多,遇到问题会比较容易解决,同时代码开源,高水平的数据开发工程师可结合自身项目的需求对代码进行修改,以更好的为项目提供服务。(3)选择数据接入和预处理工具:面对各种来源的数据,数据接入就是将这些零散的数据整合在一起,综合起来进行分析。数据接入主要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入,数据接入常用的工具有Flume,Logstash,NDC(网易数据运河系统),sqoop等。对于实时性要求比较高的业务场景,比如对存在于社交网站、新闻等的数据信息流需要进行快速的处理反馈,那么数据的接入可以使用开源的Strom,Sparkstreaming等。当需要使用上游模块的数据进行计算、统计和分析的时候,就需要用到分布式的消息系统,比如基于发布/订阅的消息系统kafka。还可以使用分布式应用程序协调服务Zookeeper来提供数据同步服务,更好的保证数据的可靠和一致性。数据预处理是在海量的数据中提取出可用特征,建立宽表,创建数据仓库,会使用到HiveSQL,SparkSQL和Impala等工具。随着业务量的增多,需要进行训练和清洗的数据也会变得越来越复杂,可以使用azkaban或者oozie作为工作流调度引擎,用来解决有多个hadoop或者spark等计算任务之间的依赖关系问题。(4)数据存储:除了Hadoop中已广泛应用于数据存储的HDFS,常用的还有分布式本文档来自技高网...

【技术保护点】
1.一种基于大数据建模的BI应用系统,其特征在于,包括:/n数据采集存储模块,DPI、业务侧、网元侧数据通过文件接口方式发送到Flume-NG集群,Flume-NG通过memory数据传输方式,将接收到的数据实时的通过hdfs方式汇聚到大数据分析平台;/n数据清洗模块,通过编写HQL脚本对数据进行清洗、转换,形成特征宽表;/n数据挖掘模块,基于特征宽表的数据建模采用Spark R,调用聚类、分类等算法,进行模型开发、模型评估和模型应用;/n分析结果发布,模型应用的结果集存储在HBase中,首先在HBase中新建存储结果集的HBase表,通过MapReduce生成HFile文件,然后通过Bulk Load方式入库,数据的调用通过HBase API实现,数据的展现通过ECharts技术实现。/n

【技术特征摘要】
1.一种基于大数据建模的BI应用系统,其特征在于,包括:
数据采集存储模块,DPI、业务侧、网元侧数据通过文件接口方式发送到Flume-NG集群,Flume-NG通过memory数据传输方式,将接收到的数据实时的通过hdfs方式汇聚到大数据分析平台;
数据清洗模块,通过编写HQL脚本对数据进行清洗、转换,形成特征宽表;
数据挖掘模块,基于特征宽表的数据建模采用SparkR,调用聚类、分类等算法,进行模型开发、模型评估和模型应用;
分析结果发布,模型应用的结果集存储在HBase中,首先在HBase中新建存储结果集的HBase表,通过MapReduce生成HFile文件,然后通过BulkLoad方式入库,数据的调用通过HBaseAPI实现,数据的展现通过ECharts技术实现。


2.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:陆洋
申请(专利权)人:江苏三六五网络股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1