【技术实现步骤摘要】
一种基于Spark的数据处理方法
[0001]本专利技术涉及数据处理
,具体为一种基于Spark的数据处理方法。
技术介绍
[0002]随着技术发展,当前很多应用在对数据进行计算时,数据的单位都非常庞大。比如,对于某些大型服务器的日志文件、指定区域的人员信息的数据处理,其中涉及到的表单中存储的数据都是以千万或者亿为单位的。在进行一些需要涉及单表关联多表的计算,比如,针对不同的主体,将其某些指定属性的数据进行汇总时,传统的基于数据库的数据处理方法中,通常使用代码获取主体的数据,然后再基于主体数据循环到每一个具体的表里面查询相应的数据,对最终计算判断得到每个主体数据的统计结果。因为数据表都是单表,每个表中存储的数据基本上是千万或是上亿级别的数据,逐条去查询比对,同时涉及到的表数量可能有几十个张,所以,执行效率非常其低下,就单机数据库而言可能需要数月之久。就算是基于表对表的关联进行计算,数十张大表关联也会产生巨大的笛卡尔积导致系统资源耗尽,可能导致数据库宕机。即便是使用高性能数据库、或者大数据技术多表关联也必须占用大量服务器 ...
【技术保护点】
【技术特征摘要】
1.一种基于Spark的数据处理方法,其特征在于,其包括以下步骤:S1:构建Spark运行环境和HDFS文件系统;S2:确认参与计算的所有表单数据;所述表单数据包括:主体表和指标表;所述主体表和所述指标表为1:N的关系,其中,N为大于1的自然数;所述主体表中记录了所有参与计算的主体数据;每个所述指标表中分别记录了所述主体数据对应的不同类型的参数指标;S3:确定需要统计的数据,记作:统计数据;确定每个所述指标表中参与统计计算的参数,记作:待计算指标参数;S4:确定所述统计数据和每个所述待计算指标参数的计算关系;所述计算关系包括:单表运算关系和整体运算关系;所述单表运算关系为:所述指标表内每个所述待计算指标需要参与的计算,输出每个所述指标表对应的单表统计结果;每个所述指标表对应一个所述单表运算关系;所述整体运算关系为:所有的所述单表统计结果需要参与的计算...
【专利技术属性】
技术研发人员:顾颂,程亮,郭彦涛,曹红艳,
申请(专利权)人:江苏未至科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。