一种基于Spark平台分类问题优化算法的数据聚合方法技术

技术编号：35511703 阅读：27 留言：0更新日期：2022-11-09 14:26

本发明专利技术公开了一种基于Spark平台分类问题优化算法的数据聚合方法。提出ARAggregate数据聚合模式，使得模型数据的更新过程可以在worker节点间进行，而不必由Driver节点负责聚合各个worker节点的数据之后在广播分发到各个worker节点来完成模型数据的更新。由此将数据聚合的功能从Driver节点抽离出来，使得Driver节点只负责任务运行的调度等功能，从而降低由Driver节点负载过重带来的Spark平台的性能瓶颈问题。本发明专利技术通过将ARAggregate数据聚合模式应用到Spark平台中的SGD算法中，使得worker节点根据本地数据计算出完整的本地模型，然后利用ARAggregate数据聚合模式在worker节点间进行全局模型的更新。本发明专利技术通过在Spark平台上实现ADMM算法，并将ARAggregate数据聚合模式应用到其中，实现了Spark平台上的基于新的数据聚合模式的ADMM算法。的基于新的数据聚合模式的ADMM算法。的基于新的数据聚合模式的ADMM算法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark平台分类问题优化算法的数据聚合方法

[0001]本专利技术提出了一种基于Spark平台分类问题优化算法的数据聚合方法，并应用到Spark平台分类问题的优化算法中，涉及机器学习、分布式计算，属于计算机

技术介绍

[0002]随着移动互联网的发展，智能设备的普及化，物质世界的各种网络化，人类活动所产生的数据量呈现出爆炸式增长的态势
[1]，而对这种巨量数据的处理技术也显得越发重要。传统的单节点处理数据的方式已经不足以胜任如今的需求，以Spark
[2][3]为代表的分布式的大数据处理框架得到了广泛的应用。例如腾讯、百度、雅虎等知名互联网公司均拥有自己的Spark集群来支撑数据处理
[4]。
[0003]但随着大数据产业的不断发展，Spark平台的一些瓶颈也逐渐显露出来，例如随着Spark集群节点数量的增加，负责协调全局并聚合各个从节点数据的主节点会变得不堪重负，因此成为了整个系统的瓶颈。虽然目前有着性能更好的参数服务器
[5][6][7]技术，但是将数据处理的任务从Spark平台迁移到参数服务器平台上，用户无疑需要经历一个数据与程序的迁移过程并且需要付出较高的人力成本和时间代价。
[0004]原有的Spark训练模型的分布式求解的实现核心是模型集中，计算分布。在分布式计算过程中，所求解问题的模型只集中在一台服务器上。每次迭代时，在各子节点上并行计算出该节点上训练数据所对应的损失值和梯度值，并将这些信息聚合到模型所在节点，通过SGD
[8]...

【技术保护点】

【技术特征摘要】
1.一种基于Spark平台分类问题优化算法的数据聚合方法，其特征在于，包括以下步骤：(1)在Spark平台上设计并实现ARAggregate数据聚合模式；(2)将ARAggregate数据聚合模式应用到Spark平台的SGD算法；(3)实现基于Spark平台的ADMM算法，并将ARAggregate数据聚合模式应用到ADMM算法。2.根据权利要求1所述的基于Spark平台分类问题优化算法的数据聚合方法，其特征在于，所述步骤(1)的具体步骤如下：(1.1)模型分段：将各个worker节点所维护的本地模型变量根据节点数量进行平均分段，例如有N个节点，那么每个本地模型变量划分为N段，每段有一个段号，依次取值为0，1，2，
···
N
‑
1；形成以段号为key，以模型分段数据为value的key
‑
value数据类型；(1.2)分段后的模型数据归约：利用Spark提供的reduceByKey算子，以分段号为key值，对各个worker节点维护的本地模型分段后的数据进行shuffle操作，这样就使得不同worker节点上所维护的具有相同段号的数据都被分发到同一个worker节点，继而对这些具有相同分区段号的数据进行归约处理，从而得到新的全局模型该分段号所对应的模型值；(1.3)归约后的模型分段复制：将完成数据聚合的每个模型分段进行复制N份，并为复制后的数据加上新的标记号，分别为0，1
···
N
‑
1；以备将更新后的模型分段数据分发到其他各个worker节点；(1.4)新的模型分段的分发：利用groupbykey算子，收集各个worker节点上计算出来的具有相同标记号的模型分段，使得具有相同标记号的模型分段汇集在同一个worker节点；(1.5)组装模型分段成为新的本地模型变量：由于现在每个节点上都是具有相同标记号的模型分段数据，去掉标记号之后，就得到更新后的全局模型的以分段号为key，以模型分段数据为value的key
‑
value数据类型；根据段号，将分段的数据进行排列，形成更新之后的本地模型变量。3.根据权利要求1所述的基于Spark平台分类问题...

【专利技术属性】
技术研发人员：彭存禄，王国政，雷咏梅，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人