一种数据处理系统技术方案

技术编号:16016811 阅读:52 留言:0更新日期:2017-08-18 20:06
本实用新型专利技术公开了一种数据处理系统,涉及数据处理技术领域,包括:原数据存储装置、数据分析装置和目标数据存储装置;原数据存储装置存储从数据源采集的原数据;数据分析装置对原数据存储装置存储的原数据进行分析,并从原数据中筛选出目标数据,将目标数据存储在目标数据存储装置中。本实用新型专利技术的数据处理系统,能够预先筛选出所需的目标数据,并在进行数据分析或展示时可以直接使用目标数据,提升了数据处理的效率,降低了数据处理的复杂度,并能够节省系统资源;并且,采用了基于HDFS和MapReduce的Hadoop集群架构可以提升对大数据量的处理效率,并可以简化数据一致性的问题。

Data processing system

The utility model discloses a data processing system, which relates to the technical field of data processing, including: raw data storage device, data analysis device and data storage device; the original data storage device stores the original data from the data source acquisition; data analysis raw data analysis device on the original data storage unit, and selected the target data from the original data, the target data stored in the target data storage device. The utility model of the data processing system can be pre screened the data needed, and in the data analysis or display can be used when the target data directly, improve the efficiency of data processing, reduces the complexity of data processing, and can save system resources; and, using the Hadoop HDFS cluster architecture and MapReduce based on can improve the processing efficiency of the large amount of data, and can simplify the data consistency problem.

【技术实现步骤摘要】
一种数据处理系统
本技术涉及数据处理
,尤其涉及一种数据处理系统。
技术介绍
随着科学技术的不断发展,海量数据的时代已经到来。例如,格力每台大型中央空调每天都能够记录近3万条监控数据,一个机组每年的监控数据加起来将是一个庞大的数值。利用这些监控数据进行定量分析,对于提高产品设计、改进工艺方法等非常重要,例如,通过获取机组的故障信息,对故障信息进行分析,能够确定引起机组故障因素,对于产品质量的提高非常有益。但是,对于如此庞大的数据信息量,如果不进行有效地分析、处理,则数据信息基本无法直接利用。目前,通常采用将数据信息直接存储在服务器上的数据库中,通过对数据库进行查询等操作,获取需要的数据信息。但是,由于数据库存储的数据信息非常多,采用通常的查询方式,服务器需要占用大量的资源并且运行缓慢,每次执行都需要重复等待,并且在服务器运行中容易出现故障。
技术实现思路
有鉴于此,本技术要解决的一个技术问题是提供一种数据处理系统,能够筛选出所需的目标数据,以使在后续的应用中可以直接使用目标数据。根据本技术的一个方面,提供一种数据处理系统,包括:原数据存储装置、数据分析装置和目标数据存储装置;原数据存储装置存储从数据源采集的原数据;所述数据分析装置对所述原数据存储装置存储的原数据进行分析,并从所述原数据中筛选出目标数据,将所述目标数据存储在所述目标数据存储装置中;其中,所述数据分析装置包括:分析运算模块,用于根据预设的筛选规则从所述原数据中筛选出所述目标数据。可选地,所述原数据存储装置包括:Hadoop分布式文件系统HDFS系统。可选地,所述HDFS系统包括:主服务器和数据服务器;所述主服务器和所述数据服务器采用主从模式组成服务器集群;其中,所述原数据为数据文件,所述数据文件存储在所述数据服务器中,所述主服务器存储所述数据文件与所述数据服务器的映射关系。可选地,所述HDFS系统包括:备份服务器;所述备份服务器与所述主服务器连接,用于备份所述映射关系。可选地,所述分析运算模块基于MapReduce模式在所述服务器集群中进行分布式运算,根据预设的筛选规则从所述原数据中筛选出所述目标数据。可选地,所述目标数据存储装置包括:接口服务器;其中,所述数据分析装置将所述目标数据存储在位于所述接口服务器上的数据库中;客户端向所述接口服务器发送数据处理指令,并获取所述接口服务器返回的所述目标数据。可选地,还包括:报表服务器;所述报表服务器与所述接口服务器连接;所述报表服务器接收到所述客户端发送的数据处理指令,将所述数据处理指令发送到所述接口服务器,并将所述接口服务器返回的所述目标数据转换为报表格式后发送到所述客户端。可选地,还包括:数据采集装置;所述数据采集装置周期性地从多个数据源中获取所述原数据,并将所述原数据发送到所述原数据存储装置。本技术的数据处理系统,能够筛选出所需的目标数据,并在进行数据分析或展示等后续的应用中可以直接使用目标数据,提升了数据处理的效率,降低了数据处理的复杂度,并且,采用了基于HDFS和MapReduce的Hadoop集群架构可以提升对大数据量的处理效率。附图说明为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为根据本技术的数据处理系统的一个实施例的模块示意图;图2为根据本技术的数据处理系统的另一个实施例的模块示意图;图3为根据本技术的数据处理系统的又一个实施例的示意图;图4为根据本技术的数据处理系统的一个实施例的数据分析的流程示意图。具体实施方式下面参照附图对本技术进行更全面的描述,其中说明本技术的示例性实施例。下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。下面结合各个图和实施例对本技术的技术方案进行多方面的描述。如图1所示,本技术提供一种数据处理系统,包括:原数据存储装置11、数据分析装置12和目标数据存储装置13。原数据存储装置11存储从数据源采集的原数据。数据分析装置12对原数据存储装置存储的原数据进行分析,并从原数据中筛选出目标数据,将目标数据存储在目标数据存储装置13中。本技术中的原数据是指从数据源获取的数据,包括装机分布、机组销售分析、机组运行监控信息等数据。数据源是指机组中的数据库服务器、销售系统中的数据库服务器等。例如,机组运行状态通过分布式存放到多个不同的数据库服务器中,数据库的类型为Mysql或SQLServer等。目标数据是指需要筛选出的数据,例如,机组运行监控信息中的机组故障数据等。目标数据存储装置13中存储有机组故障数据,在进行故障分析时,可以访问目标数据存储装置13获取机组故障数据,直接使用机组故障数据进行分析。上述实施例中的数据处理系统,能够预先筛选出所需的目标数据,并在进行数据分析或展示时可以直接使用目标数据,提升了数据处理的效率,降低了数据处理的复杂度,并能够节省系统资源。在一个实施例中,如图2所示,数据采集装置24周期性地从多个数据源中获取原数据,并将原数据发送到原数据存储装置。原数据存储装置可以为多种存储装置,例如,原数据存储装置包括:Hadoop分布式文件系统HDFS系统21。Hadoop是Apache的一个开源分布式计算平台,在海量数据处理上具有的高效、高容错、高扩展和高可靠性以及开源的特点。HDFS(HadoopDistributedFileSystem)是一个分布式文件系统。HDFS系统有着高容错性的特点,并且设计用来部署在低廉的硬件上。数据采集装置24从多个数据源中获取原数据并生成数据文件,使用API或命令将数据文件存入HDFS系统21,由HDFS系统21在多个普通硬件资源的节点上分布式存储。数据分析装置12包括:分析运算模块22,分析运算模块22基于MapReduce模式在HDFS系统21中进行分布式运算,根据预设的筛选规则从原数据中筛选出目标数据,筛选规则可以为筛选出机组主机运行故障数据等。分析运算模块22将目标数据存储在位于接口服务器23上的数据库中,用户通过客户端向接口服务器23发送数据处理指令,例如查询指令等,获取接口服务器23返回的目标数据。在一个实施例中,如图3所示,HDFS系统包括:主服务器312和数据服务器313,314,315,主服务器312和数据服务器313,314,315采用主从模式组成服务器集群。HDFS系统采用分布式集群模式,可以根据需求搭建集群数量。原数据为数据文件,存储在数据服务器313,314,315中,主服务器312存储数据文件与数据服务器的映射关系。映射关系可以为数据文件与数据服务器的映射表等,在映射表中设有数据文件与映射表的对应关系,例如,数据文件1存储在数据服务器313上,则主服务器312存储数据文件本文档来自技高网...
一种数据处理系统

【技术保护点】
一种数据处理系统,其特征在于,包括:原数据存储装置、数据分析装置和目标数据存储装置;原数据存储装置存储从数据源采集的原数据;所述数据分析装置对所述原数据存储装置存储的原数据进行分析,并从所述原数据中筛选出目标数据,将所述目标数据存储在所述目标数据存储装置中;其中,所述数据分析装置包括:分析运算模块,用于根据预设的筛选规则从所述原数据中筛选出所述目标数据。

【技术特征摘要】
1.一种数据处理系统,其特征在于,包括:原数据存储装置、数据分析装置和目标数据存储装置;原数据存储装置存储从数据源采集的原数据;所述数据分析装置对所述原数据存储装置存储的原数据进行分析,并从所述原数据中筛选出目标数据,将所述目标数据存储在所述目标数据存储装置中;其中,所述数据分析装置包括:分析运算模块,用于根据预设的筛选规则从所述原数据中筛选出所述目标数据。2.如权利要求1所述的系统,其特征在于,所述原数据存储装置包括:Hadoop分布式文件系统HDFS系统。3.如权利要求2所述的系统,其特征在于,所述HDFS系统包括:主服务器和数据服务器;所述主服务器和所述数据服务器采用主从模式组成服务器集群;其中,所述原数据为数据文件,所述数据文件存储在所述数据服务器中,所述主服务器存储所述数据文件与所述数据服务器的映射关系。4.如权利要求3所述的系统,其特征在于,所述HDFS系统包括:备份服务器;所述备份服务器与所述主服务器连接,...

【专利技术属性】
技术研发人员:林建中刘静楠臧俞淞
申请(专利权)人:珠海格力电器股份有限公司
类型:新型
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1