一种可视化大数据分析方法及系统技术方案

技术编号:14233678 阅读:121 留言:0更新日期:2016-12-21 00:33
本发明专利技术公开了一种可视化大数据分析方法及系统,所述方法包括:采集原始数据并对所述原始数据进行ETL操作;其中,所述原始数据包括离线数据和/或实时流式数据;对所述原始数据进行数据清洗得到基础数据;对所述基础数据进行数据业务处理,生成基本的数据结果;建立可视化分析模型并根据所述可视化分析模型和所述基本的数据结果得到分析结果,可视化显示所述分析结果。本发明专利技术公开的技术方案能够更好的为海量数据处理提供技术支持,可以更好的为业务处理人员提供帮助,更好的聚焦于数据实际业务,快速得到模型结果,更好的为业务决策提供数据支撑。

Method and system for visualizing large data analysis

The invention discloses a method and a system for visualization of large data analysis, the method includes: collecting original data and ETL operation on the original data; wherein, the original data including off-line data and / or real-time streaming data; the original data cleaning based on the data; basic data for data processing, to generate basic data results; establish visualization analysis model based on the visual analysis model and the basic data results of the analysis results, the visualization of the analysis results. The technical proposal of the invention can be better for the massive data processing to provide technical support, can be better for business personnel to provide help, better focus on the actual business data, quickly get the results of the model, the better for business decisions and provide data support.

【技术实现步骤摘要】

本专利技术涉及大数据分析
,特别涉及一种可视化大数据分析方法及系统
技术介绍
现如今是大数据飞速发展的时代,大数据已经被上升到国家战略层面,随着时间的推移,大数据会在各种应用邻域发挥极其重要的作用。但是在现有技术中,大数据的使用成本还是比较高的,除了搜集和存储平台的建立,更多体现在采集的数据上,对采集的数据有效的利用才能够体现大数据时代的价值。而现有的使用方式以及使用的数据中非业务东西太多,并且业务人员无法选择大数据的处理和分析方式,经常性将非业务数据融入到分析系统中导致系统的冗余及分析结果的不准确。因此,对非业务数据屏蔽,尤其是根据业务人员的选择进行大数据分析显得非常重要的。
技术实现思路
为了保证业务人员可视化分析大数据得到分析结果,有效的屏蔽非业务数据,本专利技术提供了一种可视化大数据分析方法及系统。所述技术方案如下:第一方面,提供了一种可视化大数据分析方法,其特征在于,所述方法包括:采集原始数据并对所述原始数据进行ETL操作;其中,所述原始数据包括离线数据和/或实时流式数据;对所述原始数据进行数据清洗得到基础数据;对所述基础数据进行数据业务处理,生成基本的数据结果;建立可视化分析模型并根据所述可视化分析模型和所述基本的数据结果得到分析结果,可视化显示所述分析结果。结合第一方面,在第一种可能的实施方式中,所述对所述原始数据进行数据清洗得到基础数据包括:根据业务规则对所述原始数据过滤得到业务数据,其中,所述业务规则为用户自定义业务规则或者预设规则;将所述业务数据进行格式化得到所述基础数据。结合第一方面,在第二种可能的实施方式中,所述对所述基础数据进行数据业务处理,生成基本的数据结果包括:对所述基础数据进行数据关联处理、挖掘业务模型和迭代计算;根据挖掘的所述业务模型对所述基础数据进行迭代计算,得到基本的数据结果;其中,数据关联处理包括对所述基础数据IP定位、手机号定位或僵木蠕类型定位。结合第一方面,在第三种可能的实施方式中,所述建立可视化分析模型包括:根据用户指示生成可视化的初步分析模型;用户将所述初步分析模型与预期分析模型进行比对,调整所述初步分析模型;当所述初步分析模型与预期分析模型一致时,判定生成最终的可视化分析模型。结合第一方面或第一种至第三种任意一种可能的实施方式,在第四种可能的实施方式中,所述方法还包括:在所述可视化分析模型配置展示接口、查询接口;其中,所述展示接口用于实时展示分析结果;其中,所述查询接口用于将所述分析结果分享到其他系统建立分析模型云平台。第二方面,提供了一种可视化大数据分析系统,其特征在于,所述系统包括:数据采集模块,用于采集原始数据并对所述原始数据进行ETL操作;其中,所述原始数据包括离线数据和/或实时流式数据;数据清洗模块,用于对所述原始数据进行数据清洗得到基础数据;数据处理模块,用于对所述基础数据进行数据业务处理,生成基本的数据结果;分析显示模块,用于建立可视化分析模型并根据所述可视化分析模型和所述基本的数据结果得到分析结果,可视化显示所述分析结果。结合第二方面,在第一种可能的实施方式中,所述数据清洗模块具体用于:根据业务规则对所述原始数据过滤得到业务数据,其中,所述业务规则为用户自定义业务规则或者预设规则;将所述业务数据进行格式化得到所述基础数据。结合第二方面,在第二种可能的实施方式中,所述数据处理模块具体用于:对所述基础数据进行数据关联处理、挖掘业务模型和迭代计算;根据挖掘的所述业务模型对所述基础数据进行迭代计算,得到基本的数据结果;其中,数据关联处理包括对所述基础数据IP定位、手机号定位或僵木蠕类型定位。结合第二方面,在第三种可能的实施方式中,所述分析显示模块具体用于:根据用户指示生成可视化的初步分析模型;用户将所述初步分析模型与预期分析模型进行比对,调整所述初步分析模型;当所述初步分析模型与预期分析模型一致时,判定生成最终的可视化分析模型。结合第二方面或第二方面的第一种至第三种任意一种可能的实施方式,在第四种可能的实施方式中,所述系统还包括接口模块,具体用于所述可视化分析模型配置有展示接口、查询接口;其中,所述展示接口用于实时展示分析结果;其中,所述查询接口用于将所述分析结果分享到其他系统建立分析模型云平台。第三方面,提供了一种可视化大数据分析系统,其特征在于,所述系统包括:FTP服务器、数据中心和网安平台,其中,FTP服务器用于采集原始数据,此处的原始数据可以是各个管理局、运营商和其他第三方厂商提供的。网安平台用于提供查询分析结果的入口平台和可视化展示查询结果。数据中心存储有数据分析程序,用于执行以下操作:对FTP服务器采集的原始数据进行ETL操作;其中,原始数据包括离线数据和/或实时流式数据;对原始数据进行数据清洗得到基础数据;对基础数据进行数据业务处理,生成基本的数据结果;建立可视化分析模型并根据可视化分析模型和基本的数据结果得到分析结果,可视化显示分析结果。结合第三方面,在第一种可能的实施方式中,数据中心存储的数据分析程序用于执行以下操作:根据业务规则对原始数据过滤得到业务数据,其中,业务规则为用户自定义业务规则或者预设规则;将业务数据进行格式化得到基础数据。格式化后的基础数据形成处理后数据目录,然后根据轮询的方式把数据发送到分布式文件系统(HDFS文件系统)中数据节点的每个服务器上。结合第三方面,在第二种可能的实施方式中,数据中心存储的数据分析程序用于执行以下操作:对基础数据进行数据关联处理、挖掘业务模型和迭代计算;根据挖掘的业务模型对基础数据进行迭代计算,得到基本的数据结果。对存储于上述Hadoop分布式文件系统中的基础数据通过Spark数据关联定位,该定位包括IP定位、手机号定位或僵木蠕类型定位。结合第三方面,在第三种可能的实施方式中,数据中心存储的数据分析程序用于执行以下操作:关联定位后的基本的数据结果上传至Hadoop分布式文件系统(HDFS文件系统中)中,具体地,建立可视化分析模型包括:根据用户指示生成可视化的初步分析模型;用户将所述初步分析模型与预期分析模型进行比对,调整所述初步分析模型;当所述初步分析模型与预期分析模型一致时,判定生成最终的可视化分析模型。结合第三方面或第三方面的第一种至第三种任意一种可能的实施方式,在第四种可能的实施方式中,数据中心存储的数据分析程序用于执行以下操作:数据中心配置接口模块,具体包括查询接口和展示接口,其中,查询接口用于提供数据查询服务;展示接口用于实时展示分析结果。该查询接口一端与Impala查询服务和ES查询服务连接,另一端与网安平台连接。数据查询接口服务具体包括:认证访问接口、统计分析任务下发接口、关联查询任务下发接口、结果查询接口、任务删除接口、数据添加接口和数据文件批量导入接口等。本专利技术实施例提供了一种可视化大数据分析方法及系统,通过采集不同形式的原始数据并进行ETL操作,完成了对客户提供的各种原始数据的汇总、转化、提取工作,使各种不同格式、不同途径的原始海量数据完成了进入数据仓库中的前期工作,并且ETL通过底层的SOCKET完成,最大化的利用网络资源,最大化提升ETL性能;通过对原始数据的数据清洗,可以滤除非业务数据;通过对基础数据进行数据业务处理,生成基本的数据结果,可本文档来自技高网...
一种可视化大数据分析方法及系统

【技术保护点】
一种可视化大数据分析方法,其特征在于,所述方法包括:采集原始数据并对所述原始数据进行ETL操作;其中,所述原始数据包括离线数据和/或实时流式数据;对所述原始数据进行数据清洗得到基础数据;对所述基础数据进行数据业务处理,生成基本的数据结果;建立可视化分析模型并根据所述可视化分析模型和所述基本的数据结果得到分析结果,可视化显示所述分析结果。

【技术特征摘要】
1.一种可视化大数据分析方法,其特征在于,所述方法包括:采集原始数据并对所述原始数据进行ETL操作;其中,所述原始数据包括离线数据和/或实时流式数据;对所述原始数据进行数据清洗得到基础数据;对所述基础数据进行数据业务处理,生成基本的数据结果;建立可视化分析模型并根据所述可视化分析模型和所述基本的数据结果得到分析结果,可视化显示所述分析结果。2.根据权利要求1所述的方法,其特征在于,所述对所述原始数据进行数据清洗得到基础数据包括:根据业务规则对所述原始数据过滤得到业务数据,其中,所述业务规则为用户自定义业务规则或者预设规则;将所述业务数据进行格式化得到所述基础数据。3.根据权利要求1所述的方法,其特征在于,所述对所述基础数据进行数据业务处理,生成基本的数据结果包括:对所述基础数据进行数据关联处理、挖掘业务模型和迭代计算;根据挖掘的所述业务模型对所述基础数据进行迭代计算,得到基本的数据结果;其中,数据关联处理包括对所述基础数据I P定位、手机号定位或僵木蠕类型定位。4.根据权利要求1所述的方法,其特征在于,所述建立可视化分析模型包括:根据用户指示生成可视化的初步分析模型;用户将所述初步分析模型与预期分析模型进行比对,调整所述初步分析模型;当所述初步分析模型与预期分析模型一致时,判定生成最终的可视化分析模型。5.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:在所述可视化分析模型配置展示接口、查询接口;其中,所述展示接口用于实时展示分析结果;其中,所述查询接口用于将所述分析结果分享到其他系统建立分析模型云平台。6.一种可视化大...

【专利技术属性】
技术研发人员:叶辉金红杨满智刘长永王杰吕中原顾超
申请(专利权)人:恒安嘉新北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1