【技术实现步骤摘要】
应用数据实时分析分布式大数据平台
[0001]本专利技术涉及大数据平台,特别涉及应用数据实时分析分布式大数据平台,属于大数据
技术介绍
[0002]大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
[0003]目前的大数据应用广泛,但是现有的大数据在计算时采用系统数据库进行计算,计算压力大,从而影响系统的运算速度和反应速度。
技术实现思路
[0004]本专利技术的目的在于提供应用数据实时分析分布式大数据平台,以解决上述
技术介绍
中提出的现有大数据在计算时采用系统数据库进行计算,计算压力大,从而影响系统的运算速度和反应速度的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:大数据平台包括数据源、数据存 ...
【技术保护点】
【技术特征摘要】
1.应用数据实时分析分布式大数据平台,其特征在于,大数据平台包括数据源、数据存储层、数据分析层和数据应用层,其特征在于,所述数据源由数据采集模块和数据集成模块组成,采集模块:以接口方式从应用系统中收集记录系统运行的动态日志数据和业务数据;数据集成模块:将抽取的应用系统日志数据和业务数据经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中;所述数据存储层由存储模块和数据湖组成;存储模块:对获取的系统日志数据和业务数据进行存储;数据湖:基于只读模式的数据格式和原始数据存储,原始数据不丢失;所述数据分析层由数学函数和建模组成,数学函数和建模:抽取存储模块和数据湖模块进行实时分析、交互式分析和数据挖掘处理;所述数据应用层由数据共享、数据展现和数据访问组成,数据共享:在数据仓库与应用系统间提供数据共享服务;数据展现:通过应用系统页面展示操作者所需要的结果,实现数据可视化;数据访问:由使用者通过浏览器访问进入系统。2.根据权利要求1所述的应用数据实时分析分布式大数据平台,其特征在于:所述数据清洗采用热卡填补法进行清洗,具体为:在应用系统中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充,使用相关系数矩阵来确定哪个变量(变量Y)与缺失值所在变量(变量X)最相关,然后把所有变量按Y的取值大小进行排序,变量X的缺失值用排在缺失值前的那个个案的数据来代替。3.根据权利要求1所述的应用数据实时分析分布式大数据平台,其特征在于:所述数据湖构建具体为:使用Hadoop文件系统HDFS和Hadoop数据库Hbase这两个组件来实现,来自数据源的实时数据,通过开源Kafka系统存储在数据湖之中,并由大数据分析层进行实时分析,对于批处理用到的数据可以使用开源ETL工具Sqoo...
【专利技术属性】
技术研发人员:赵志明,
申请(专利权)人:重庆卡歌科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。