本发明专利技术提供一种分布式轻量级大数据处理方法、装置、计算机存储介质及电子设备,所述方法包括:采集数据,并对所述数据进行预处理;将预处理后的所述数据写入数据库;从所述数据库中拉取数据,按照分片规则将所述数据保存到共享文件系统中;slave按照分片规则,从共享文件系统读取历史数据,并从所述数据库同步实时数据;slave执行数据分析,并将分析结果通知master;master对收到的分析结果进行合并、排序。根据本发明专利技术实施例的方法,业务开发周期短,部署和运维难度低,成本低,处理速度快。
【技术实现步骤摘要】
一种分布式轻量级大数据处理方法、装置、计算机存储介质及电子设备
本专利技术涉及分布式数据处理
,尤其涉及一种分布式轻量级大数据处理方法、装置、计算机存储介质及电子设备。
技术介绍
目前业界针对分布式服务协调通常使用两种方案,一种是基于Hadoop、sorl等开源大数据分析框架进行开发;另一种是通过Map/Reduce或者全文检索模型,处理数据得出分析结果。目前常用的两种方案存在多种不足:a)框架复杂,对实现业务的开发者门槛较高;b)包含组件较多,部署、运维难度大;c)原始数据保存在磁盘中,数据读取速度依赖磁盘io性能,成为数据处理速度的瓶颈;d)为达到数据分析速度,需要较大的服务器集群规模,服务器成本高。因此,存在改进需要。
技术实现思路
有鉴于此,本专利技术提供一种分布式轻量级大数据处理方法、处理装置、计算机存储介质及电子设备,能够有效提高数据分析处理的速度,减少服务器成本,降低部署和运维难度。为解决上述技术问题,一方面,本专利技术提供一种分布式轻量级大数据处理方法,所述方法包括:采集数据,并对所述数据进行预处理;将预处理后的所述数据写入数据库;从所述数据库中拉取数据,按照分片规则将所述数据保存到共享文件系统中;slave按照分片规则,从共享文件系统读取历史数据,并从所述数据库同步实时数据;slave执行数据分析,并将分析结果通知master;master对收到的分析结果进行合并、排序。根据本专利技术的一些实施例,所述数据库为mysql。根据本专利技术的一些实施例,所述方法包括:每天凌晨定时从所述数据库中拉取数据。根据本专利技术的一些实施例,所述从所述数据库中拉取数据,按照分片规则将所述数据保存到共享文件系统中,包括:所述数据以文件形式保存到共享文件系统中。根据本专利技术的一些实施例,所述数据以二进制文件形式保存到共享文件系统中。根据本专利技术的一些实施例,所述方法包括:所述数据库设置定时任务,定时转储和清理业务表的历史数据。根据本专利技术的一些实施例,所述slave按照分片规则,从共享文件系统读取历史数据,并从所述数据库同步实时数据,包括:所述数据保存在slave内存中。第二方面,本专利技术实施例提供一种分布式轻量级大数据处理装置,包括:数据采集模块,所述数据采集模块用于采集数据,对所述数据进行预处理,并将预处理后的所述数据写入数据库;数据转储模块,所述数据转储模块从所述数据库中拉取数据,按照分片规则将数据保存到共享文件系统中;数据分析模块,所述数据分析模块按照分片规则,从共享文件系统读取历史数据,并从所述数据库同步实时数据,所述数据分析模块执行数据分析,并得出分析结果;数据整理模块,所述数据整理模块对所述分析结果进行合并和排序。第三方面,本专利技术实施例提供一种计算机存储介质,包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现上述任一项所述的分布式轻量级大数据处理方法。第四方面,本专利技术实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,所述处理器用于调用并执行所述一条或多条计算机指令,从而实现如上述任一项所述的分布式轻量级大数据处理方法。本专利技术的上述技术方案至少具有如下有益效果之一:根据本专利技术实施例的分布式轻量级大数据处理方法、处理装置、计算机存储介质及电子设备,按照分片规则转储数据到共享文件系统,slave按分片规则从共享文件系统读取历史数据到内存,slave在内存中对数据进行分析处理,框架组成模块相对简单,业务开发实现周期短,包含组件较少,部署和运维难度低;数据全量缓存在内存中,处理速度大幅提升;处理相同的数据量,需要的服务器节点数量缩减一半以上,降低了成本;数据保存在共享存储中,数据分析节点能更快的进行异常恢复,持续提供数据分析处理能力。附图说明图1为本专利技术实施例的分布式轻量级大数据处理方法的流程图;图2为本专利技术实施例的分布式轻量级大数据处理方法的架构图;图3为本专利技术实施例的分布式轻量级大数据处理装置的示意图;图4为本专利技术实施例的电子设备的示意图。附图标记:分布式轻量级大数据处理方法100;分布式轻量级大数据处理装置200;数据采集模块201;数据转储模块202;数据分析模块203;数据整理模块204;数据库205;共享文件系统206;电子设备300;存储器310;操作系统311;应用程序312;处理器320;网络接口330;输入设备340;硬盘350;显示设备360。具体实施方式下面将结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。如图1和图2所示,本专利技术实施例的分布式轻量级大数据处理方法100包括:采集数据,并对所述数据进行预处理。将预处理后的所述数据写入数据库。从所述数据库中拉取数据,按照分片规则将所述数据保存到共享文件系统中。slave按照分片规则,从共享文件系统读取历史数据,并从所述数据库同步实时数据。slave执行数据分析,并将分析结果通知master。master对收到的分析结果进行合并、排序。换言之,如图2所示,本专利技术实施例的分布式轻量级大数据处理方法100,首先可以通过数据采集模块进行数据采集,并进行适当的预处理,在将数据预处理之后写入数据库。通过数据转储模块可以从数据库中拉取数据,并按照分片规则将数据保存到共享文件系统中,通过数据分析节点,slave可以按照分片规则,从数据库读取历史数据并同步实时数据,slave对数据进行分析,并向master反馈分析结果,master则对来自slave的分析结果进行合并和排序。由此,根据本专利技术实施例的分布式数据处理方法100,数据转储工具按分片规则,将数据转储到共享文件系统,slave按分片规则从共享文件系统读取历史数据到内存,处理方法简单,业务开发周期短,所用组件少,部署和运维难度低,服务器节点数量减少,处理相同的数据量,需要的服务器数量缩减一半以上,成本低,并且由于数据保存在共享存储中,数据分析节点能更快的进行异常恢复,持续提供数据分析处理能力。其中需要说明的是,所述数据库可以为mysql。Mysql为关系型数据库,可以临时保存预处理的数据,并且便于slave从mysql同步实时数据。根据本专利技术的一个实施例,所述方法包括:每天凌晨定时从所述数据库中拉取数据。也就是说,数据转储模块可以被设置成每天凌晨定时从mysql中拉取数据,从关系型数据库将数据转储到共享文件系统,可以定时增量执行数据转储。可选地,在本专利技术的一些具体实施方式中,所述从所述数据库中拉取数据,按照分片规则将所述数据保存到共享文件系统中,包括:所述数据以文件形式保存到共享文件系统中。优选地,所述数据以二进制文件形式保存到共享文件系统中。也就是说,共享文件系统以二本文档来自技高网...
【技术保护点】
1.一种分布式轻量级大数据处理方法,其特征在于,所述方法包括:/n采集数据,并对所述数据进行预处理;/n将预处理后的所述数据写入数据库;/n从所述数据库中拉取数据,按照分片规则将所述数据保存到共享文件系统中;/nslave按照分片规则,从共享文件系统读取历史数据,并从所述数据库同步实时数据;/nslave执行数据分析,并将分析结果通知master;/nmaster对收到的分析结果进行合并、排序。/n
【技术特征摘要】
1.一种分布式轻量级大数据处理方法,其特征在于,所述方法包括:
采集数据,并对所述数据进行预处理;
将预处理后的所述数据写入数据库;
从所述数据库中拉取数据,按照分片规则将所述数据保存到共享文件系统中;
slave按照分片规则,从共享文件系统读取历史数据,并从所述数据库同步实时数据;
slave执行数据分析,并将分析结果通知master;
master对收到的分析结果进行合并、排序。
2.根据权利要求1所述的分布式轻量级大数据处理方法,其特征在于,所述数据库为mysql。
3.根据权利要求1所述的分布式轻量级大数据处理方法,其特征在于,所述方法包括:
每天凌晨定时从所述数据库中拉取数据。
4.根据权利要求1所述的分布式轻量级大数据处理方法,其特征在于,所述从所述数据库中拉取数据,按照分片规则将所述数据保存到共享文件系统中,包括:
所述数据以文件形式保存到共享文件系统中。
5.根据权利要求4所述的分布式轻量级大数据处理方法,其特征在于,所述数据以二进制文件形式保存到共享文件系统中。
6.根据权利要求1所述的分布式轻量级大数据处理方法,其特征在于,所述方法包括:
所述数据库设置定时任务,定时转储和清...
【专利技术属性】
技术研发人员:黄松钦,李文杰,黄仝宇,汪刚,宋一兵,侯玉清,刘双广,
申请(专利权)人:高新兴科技集团股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。