一种基于大数据的数据处理系统和方法技术方案

技术编号:21089705 阅读:43 留言:0更新日期:2019-05-11 10:00
本发明专利技术涉及一种基于大数据的数据处理系统和方法,所述数据处理系统包括:数据获取模块,用于从大数据集群中获取数据;参数配置模块,用于对数据处理所需要的参数进行配置;数据处理模块,用于根据配置参数对所述数据获取模块得到的数据进行处理,并将处理后的结果生成信息报表;显示输出模块,用于将所述信息报表进行显示。本发明专利技术所述的系统通过所述参数配置模块对数据处理方式的配置,能够实现根据不同的使用场景进行不同的数据处理配置策略,解决了现有数据处理过程大多采用实时处理所导致的数据运算量大,数据存储量大的问题,有利于在满足用户需求的前提下,降低大数据处理系统的数据运算量和功耗,有利于提高数据处理速度和系统稳定性。

A Data Processing System Based on Large Data

【技术实现步骤摘要】
一种基于大数据的数据处理系统和方法
本专利技术涉及数据处理
,具体涉及一种基于大数据的数据处理系统和方法。
技术介绍
随着科技的不断进步,尤其是移动互联网、物联网等技术的飞速发展,全球数据量出现了爆炸式增长。比如,企业在信息化过程中积累了大量的结构化和非结构化数据。企业管理与运营的这些数据已经成为企业的核心资产,深刻地影响着企业的业务模式,给企业决策、组织和业务流程带来显著的变化,因此,大数据处理技术受到工业界的极大关注;又比如,在互联网金融领域,每天甚至说是每时每刻在互联网金融平台上都会进行资金交易流转,交易的过程中产生了大量的数据,现有的数据处理系统大多是需要实时处理金融平台上的交易情况,比如根据记录的每一笔流水的交易时间、交易金额、账面余额等信息进行统计计算,对企业管理和运营的数据也是实时进行统计处理,致使整个平台的数据处理量大,数据存储量大,数据计算频繁,容易导致系统运行不稳定。
技术实现思路
有鉴于此,本专利技术的目的在于克服现有技术的不足,提供一种基于大数据的数据处理系统和方法。为实现以上目的,本专利技术采用如下技术方案:一种基于大数据的数据处理系统,包括:数据获取模块,用于从大数据集群中获取数据;参数配置模块,用于对数据处理所需要的参数进行配置;数据处理模块,用于根据配置参数对所述数据获取模块得到的数据进行处理,并将处理后的结果生成信息报表;显示输出模块,用于将所述信息报表进行显示。可选的,所述数据处理系统还包括:定时任务控制模块,用于按照需求定时控制所述数据处理模块运行。可选的,所述参数配置模块对数据的配置包括:业务配置项,包括:数据处理任务的执行时间间隔,所述执行时间间隔用于读取该时间间隔内的采集数据;客户信息配置项,包括:业务编号、客户编号、用户号、用户名称,以及数据格式;大数据集群配置项,包括:大数据存储目录、服务器设备名称,以及设备角色。可选的,所述数据处理系统还包括:配置更新模块,用于对数据处理所需要的配置参数进行更新。可选的,所述数据处理模块采用分布式框架,对采集数据进行并行处理;所述数据处理模块设有Map/Reduce处理模型。可选的,所述数据处理模块包括:数据清洗模块、数据转换模块、数据分发模块和数据消减处理模块。可选的,所述数据处理系统还包括:数据存储模块;所述数据存储模块被划分为多个不同的文件目录,各个文件目录用于存储对应的信息报表。可选的,所述数据处理系统还包括:日志记录模块;所述日志记录模块利用Flume实现对系统其它各个模块运行状况信息的收集,并当系统运行异常时,将运行异常对应的日志通过所述显示输出模块显示出来。本专利技术还提供了一种基于大数据的数据处理方法,包括:从大数据集群中获取数据;对数据处理所需要的参数进行配置;按照配置参数对获取得到的数据进行处理,并将处理后的结果生成信息报表;将所述信息报表进行显示。可选的,所述数据处理方法还包括:对数据处理所需要的配置参数进行更新;按照更新后的数据处理任务的执行时间间隔对采集的数据进行处理;其中,所述参数包括数据处理任务的执行时间间隔。本专利技术采用以上技术方案,所述基于大数据的数据处理系统,包括:数据获取模块,用于从大数据集群中获取数据;参数配置模块,用于对数据处理所需要的参数进行配置;数据处理模块,用于根据配置参数对所述数据获取模块得到的数据进行处理,并将处理后的结果生成信息报表;显示输出模块,用于将所述信息报表进行显示。本专利技术所述的系统通过所述参数配置模块对数据处理方式的配置,能够实现根据不同的使用场景进行不同的数据处理配置策略,解决了现有数据处理过程大多采用实时处理所导致的数据运算量大,数据存储量大的问题,有利于在满足用户需求的前提下,降低大数据处理系统的数据运算量和功耗,有利于提高数据处理速度和系统稳定性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术基于大数据的数据处理系统实施例一提供的结构示意图;图2是所述数据处理模块采用分布式框架的工作原理示意图;图3是本专利技术基于大数据的数据处理系统实施例二提供的结构示意图;图4是本专利技术基于大数据的数据处理方法实施例一提供的流程示意图。图中:1、数据获取模块;2、参数配置模块;3、数据处理模块;4、显示输出模块;5、定时任务控制模块;6、配置更新模块;7、数据存储模块;8、日志记录模块。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。图1是本专利技术基于大数据的数据处理系统实施例一提供的结构示意图。如图1所示,本实施例所述的系统包括:数据获取模块1,用于从大数据集群中获取数据;参数配置模块2,用于对数据处理所需要的参数进行配置;数据处理模块3,用于根据配置参数对所述数据获取模块1得到的数据进行处理,并将处理后的结果生成信息报表;显示输出模块4,用于将所述信息报表进行显示。在实际使用中,所述参数配置模块2对数据的配置包括:业务配置项(例如包括:数据处理任务的执行时间间隔,所述执行时间间隔用于读取该时间间隔内的采集数据);客户信息配置项(例如包括:业务编号、客户编号、用户号、用户名称,以及数据格式);大数据集群配置项(例如包括:大数据存储目录、服务器设备名称,以及设备角色)。所述数据获取模块1用于从大数据集群中获取数据,具体的,所述数据获取模块1是从大数据集群中的数据采集系统中获取到采集数据,然后将获取到的数据由所述数据处理模块3进行处理,将处理结果生成信息报表,并将所述信息报表进行显示。进一步的,如图2所示,所述数据处理模块3采用分布式框架,对采集数据进行并行处理;所述数据处理模块3设有Map/Reduce处理模型。进一步的,所述数据处理模块3包括:数据清洗模块、数据转换模块、数据分发模块和数据消减处理模块。进一步的,所述系统还包括:数据存储模块7;所述数据存储模块7被划分为多个不同的文件目录;进一步的,所述处理结果可以是依据业务分类分别存储到所述数据存储模块7的不同文件目录内。所述数据处理模块3接收到所述数据获取模块1发送的数据,并经过所述数据清洗模块、数据转换模块、数据分发模块和数据消减处理模块依次对所述数据获取模块1采集的数据进行数据清洗、数据转换、数据分发和数据消减处理;具体的,数据清洗处理通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值;所述填补遗漏数据的处理方法可以是:(1)利用缺省值填补遗漏值,即对一个属性的所有遗漏的值均利用一个事先确定好的值来填补;(2)利用均值填补遗漏值,即计算一个属性的平均值,并用此值填补该属性所有遗漏的值;(3)利用同类别均值填补遗漏值;(4)利用最可能的值填补遗漏值,即可以利用回归分析、贝叶斯计算公式或决策树推断出该条记录特定属性的最大可能的取值,并用该取值填补遗漏值。本文档来自技高网...

【技术保护点】
1.一种基于大数据的数据处理系统,其特征在于,包括:数据获取模块,用于从大数据集群中获取数据;参数配置模块,用于对数据处理所需要的参数进行配置;数据处理模块,用于根据配置参数对所述数据获取模块得到的数据进行处理,并将处理后的结果生成信息报表;显示输出模块,用于将所述信息报表进行显示。

【技术特征摘要】
1.一种基于大数据的数据处理系统,其特征在于,包括:数据获取模块,用于从大数据集群中获取数据;参数配置模块,用于对数据处理所需要的参数进行配置;数据处理模块,用于根据配置参数对所述数据获取模块得到的数据进行处理,并将处理后的结果生成信息报表;显示输出模块,用于将所述信息报表进行显示。2.根据权利要求1所述的数据处理系统,其特征在于,还包括:定时任务控制模块,用于按照需求定时控制所述数据处理模块运行。3.根据权利要求2所述的数据处理系统,其特征在于,所述参数配置模块对数据的配置包括:业务配置项,包括:数据处理任务的执行时间间隔,所述执行时间间隔用于读取该时间间隔内的采集数据;客户信息配置项,包括:业务编号、客户编号、用户号、用户名称,以及数据格式;大数据集群配置项,包括:大数据存储目录、服务器设备名称,以及设备角色。4.根据权利要求1至3任一项所述的数据处理系统,其特征在于,还包括:配置更新模块,用于对数据处理所需要的配置参数进行更新。5.根据权利要求1至3任一项所述的数据处理系统,其特征在于,所述数据处理模块采用分布式框架,对采集数据进行并行处理;所述数据...

【专利技术属性】
技术研发人员:胡湿黄福鑫王江
申请(专利权)人:北京云基数技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1