一种基于spark的大数据处理方法技术

技术编号:29330547 阅读:29 留言:0更新日期:2021-07-20 17:48
本发明专利技术公开了一种基于spark的大数据处理方法,包括将数据处理结果需要进行比对的两方数据同时缓存至中间库,所述两方数据包括第一方数据和第二方数据;根据第一方数据的数量分配多个处理第一方数据的第一副线程,根据第二方数据的数量分配多个处理第二方数据的第二副线程;多个第一副线程均完成数据处理时,触发:第一主线程对所有副线程的数据处理结果进行收集,并生成第一方数据的处理结果;多个第二副线程均完成数据处理时,触发:第二主线程对所有副线程的数据处理结果进行收集,并生成第二方数据的处理结果;将第一方数据的处理结果和第二方数据的处理结果同时输出。解决了在企业对账中,不能输出对账结果的问题。

【技术实现步骤摘要】
一种基于spark的大数据处理方法
本专利技术属于计算机
,尤其涉及一种基于spark的大数据处理方法。
技术介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。但现有技术中,基于Hadoop中MapReduce的多线程数据处理方法,不能应用在企业本文档来自技高网...

【技术保护点】
1.一种基于spark的大数据处理方法,其特征在于,包括:/n将数据处理结果需要进行比对的两方数据同时缓存至中间库,所述两方数据包括第一方数据和第二方数据;/n根据第一方数据的数量分配多个处理第一方数据的第一副线程,根据第二方数据的数量分配多个处理第二方数据的第二副线程;/n多个第一副线程均完成数据处理时,触发:第一主线程对所有副线程的数据处理结果进行收集,并生成第一方数据的处理结果;/n多个第二副线程均完成数据处理时,触发:第二主线程对所有副线程的数据处理结果进行收集,并生成第二方数据的处理结果;/n将第一方数据的处理结果和第二方数据的处理结果同时输出。/n

【技术特征摘要】
1.一种基于spark的大数据处理方法,其特征在于,包括:
将数据处理结果需要进行比对的两方数据同时缓存至中间库,所述两方数据包括第一方数据和第二方数据;
根据第一方数据的数量分配多个处理第一方数据的第一副线程,根据第二方数据的数量分配多个处理第二方数据的第二副线程;
多个第一副线程均完成数据处理时,触发:第一主线程对所有副线程的数据处理结果进行收集,并生成第一方数据的处理结果;
多个第二副线程均完成数据处理时,触发:第二主线程对所有副线程的数据处理结果进行收集,并生成第二方数据的处理结果;
将第一方数据的处理结果和第二方数据的处理结果同时输出。


2.按照权利要求1所述的一种基于spark的大数据处理方法,其特征在于,根据第一方...

【专利技术属性】
技术研发人员:李方进
申请(专利权)人:上海静客网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1