批量数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:32462651 阅读:21 留言:0更新日期:2022-02-26 08:54
本申请实施例属于大数据领域,涉及一种批量数据处理方法、装置、计算机设备及存储介质,方法包括:获取批量数据表;获取批量数据表的数据特异性信息和分割配置信息;根据数据特异性信息和分割配置信息,对批量数据表进行拆分,得到若干个数据子表;对于每个数据子表,确定数据子表所对应的spark节点;通过spark节点获取数据子表,并通过spark节点对数据子表进行数据处理,得到数据处理结果。此外,本申请还涉及区块链技术,数据特异性信息还可存储于区块链中。本申请提高了批量数据处理效率。本申请提高了批量数据处理效率。本申请提高了批量数据处理效率。

【技术实现步骤摘要】
批量数据处理方法、装置、计算机设备及存储介质


[0001]本申请涉及大数据
,尤其涉及一种批量数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,越来越多的业务系统开始采用spark进行批量数据处理,例如对数据进行清洗、筛选和加工。通常,会在Oracle库中设置数据表,存储数据处理所需的各种数据,例如来自上游的业务数据。
[0003]由于Oracle库连接串的限制,如果通过较多并发读取数据表,会导致数据读取速度较慢。因此,现在也常常通过sqoop任务将Oracle库数据表中的数据导入hive库中,供spark集群读取。然而,这需要额外开发sqoop任务,还需要在hive库中建表,较大地消耗了开发资源;当Oracle库中数据表更新时,需要及时通过sqoop任务更新hive库中的表,进一步增大了运营和维护所需的资源。

技术实现思路

[0004]本申请实施例的目的在于提出一种批量数据处理方法、装置、计算机设备及存储介质,以解决解决批量数据处理效率较低的问题。
>[0005]为了解本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种批量数据处理方法,其特征在于,包括下述步骤:获取批量数据表;获取所述批量数据表的数据特异性信息和分割配置信息;根据所述数据特异性信息和所述分割配置信息,对所述批量数据表进行拆分,得到若干个数据子表;对于每个数据子表,确定数据子表所对应的spark节点;通过所述spark节点获取所述数据子表,并通过所述spark节点对所述数据子表进行数据处理,得到数据处理结果。2.根据权利要求1所述的批量数据处理方法,其特征在于,所述获取所述批量数据表的数据特异性信息和分割配置信息的步骤包括:从动态配置管理服务器中获取针对所述批量数据表的数据特异性信息;获取关联于所述批量数据表的数据查询信息;根据所述数据查询信息和所述数据特异性信息生成针对所述批量数据表的分割配置信息。3.根据权利要求1所述的批量数据处理方法,其特征在于,所述根据所述数据特异性信息和所述分割配置信息,对所述批量数据表进行拆分,得到若干个数据子表的步骤包括:根据所述数据特异性信息,将所述批量数据表中的批量数据划分为特异性数据和非特异性数据;基于所述数据特异性信息对所述特异性数据进行拆分,得到若干组特异性子数据,并基于每组特异性子数据生成数据子表;根据所述分割配置信息对所述非特异性数据进行随机分割,得到若干组非特异性子数据,并基于每组非特异性子数据生成数据子表。4.根据权利要求3所述的批量数据处理方法,其特征在于,所述根据所述分割配置信息对所述非特异性数据进行随机分割,得到若干组非特异性子数据,并基于每组非特异性子数据生成数据子表的步骤包括:获取所述分割配置信息中的数据分割方式,所述数据分割方式包括伪劣分割、结果伪劣分割或随机字段分割;基于所述数据分割方式对所述非特异性数据进行随机分割,得到若干组非特异性子数据,并基于每组非特异性子数据生成数据子表。5.根据权利要求1所述的批量数据处理方法,其特征在于,所述对于每个数据子表,确定数据子表所对应的spark节点的步骤包括:对于每个...

【专利技术属性】
技术研发人员:雷志勇
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1