一种基于Spark的数据处理方法技术

技术编号：36407300 阅读：57 留言：0更新日期：2023-01-18 10:16

本申请提供一种基于Spark的数据处理方法，其可以基于较低的服务资源占用率，高效率地完成对海量数据的处理过程。本申请技术方案采用大数据spark内存引擎，以预处理的方式，将统计数据的和参与计算的待计算指标参数之间的计算关系进行分解，得到：单表运算关系和整体运算关系，先分别计算每个指标表中的待计算指标参数，将所有的单表统计结果拼接到存放在HDFS文件系统中的TempFile中，将主体表与TempFile进行关联，通过整体运算关系得到每个主体数据对应的统计结果。主体数据对应的统计结果。主体数据对应的统计结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark的数据处理方法

[0001]本专利技术涉及数据处理
，具体为一种基于Spark的数据处理方法。

技术介绍

[0002]随着技术发展，当前很多应用在对数据进行计算时，数据的单位都非常庞大。比如，对于某些大型服务器的日志文件、指定区域的人员信息的数据处理，其中涉及到的表单中存储的数据都是以千万或者亿为单位的。在进行一些需要涉及单表关联多表的计算，比如，针对不同的主体，将其某些指定属性的数据进行汇总时，传统的基于数据库的数据处理方法中，通常使用代码获取主体的数据，然后再基于主体数据循环到每一个具体的表里面查询相应的数据，对最终计算判断得到每个主体数据的统计结果。因为数据表都是单表，每个表中存储的数据基本上是千万或是上亿级别的数据，逐条去查询比对，同时涉及到的表数量可能有几十个张，所以，执行效率非常其低下，就单机数据库而言可能需要数月之久。就算是基于表对表的关联进行计算，数十张大表关联也会产生巨大的笛卡尔积导致系统资源耗尽，可能导致数据库宕机。即便是使用高性能数据库、或者大数据技术多表关联也必须占用大量服务器...

【技术保护点】

【技术特征摘要】
1.一种基于Spark的数据处理方法，其特征在于，其包括以下步骤：S1：构建Spark运行环境和HDFS文件系统；S2：确认参与计算的所有表单数据；所述表单数据包括：主体表和指标表；所述主体表和所述指标表为1：N的关系，其中，N为大于1的自然数；所述主体表中记录了所有参与计算的主体数据；每个所述指标表中分别记录了所述主体数据对应的不同类型的参数指标；S3：确定需要统计的数据，记作：统计数据；确定每个所述指标表中参与统计计算的参数，记作：待计算指标参数；S4：确定所述统计数据和每个所述待计算指标参数的计算关系；所述计算关系包括：单表运算关系和整体运算关系；所述单表运算关系为：所述指标表内每个所述待计算指标需要参与的计算，输出每个所述指标表对应的单表统计结果；每个所述指标表对应一个所述单表运算关系；所述整体运算关系为：所有的所述单表统计结果需要参与的计算...

【专利技术属性】
技术研发人员：顾颂，程亮，郭彦涛，曹红艳，
申请(专利权)人：江苏未至科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人