一种具有动态学习速率边界的分布式自适应矩估计方法技术

技术编号:23051204 阅读:39 留言:0更新日期:2020-01-07 14:57
基于自适应梯度的优化方法如ADAGRAD、RMSPROP、ADAM等被广泛应用于解决包括深度学习在内的大规模机器学习问题。在现有的工作中,已经针对外围节点与中心节点的通信并行化问题提出了许多解决方案,但通信成本往往较高。并且现有的方法普遍存在泛化能力较差,甚至由于不稳定和极端的学习率而无法收敛。为了解决目前存在的问题,开发了一种新的具有动态学习速率边界的分布式自适应矩估计方法(DADBOUND),用于在分散网络上进行在线优化,从而实现数据并行化和分散计算。并且该方法利用学习率的动态范围来实现从自适应方法到DSGD的渐进平稳过渡,以消除自适应方法和DSGD之间的泛化差距,同时在训练初期保持较高的学习速度。最后,对各种任务进行了实验验证,结果表明DADBOUND方法在实际应用中效果良好,与其他在线优化方法相比具有一定的优势。

A distributed adaptive moment estimation method with dynamic learning rate boundary

【技术实现步骤摘要】
一种具有动态学习速率边界的分布式自适应矩估计方法
本专利技术涉及一种具有动态学习速率边界的分布式自适应矩估计方法,属于机器学习领域。
技术介绍
在线优化是解决各种机器学习问题的基本过程。它可以表示为学习者(算法)和对手之间的重复博弈。分散式在线凸优化在科学和工程领域得到了广泛的关注。例如分布式跟踪,估计和检测等经典问题本质上也是优化问题。分布式优化问题主要是执行分配给网络中每个节点的全局优化任务。相比集中式优化,分布式优化对节点施加较低的计算负担,并且即使节点经历本地故障,网络系统仍然保持稳健,因此它可以有效地克服集中式场景中单个信息处理单元中的缺陷。目前,在分散优化中,梯度下降算法是一种常用算法,SGD是常用的梯度下降算法,然而,SGD的缺点是在各个方向上梯度均匀。在训练数据稀疏的情况下,这可能会导致较差的性能和有限的训练速度。为了解决这一问题,最近的工作提出了各种自适应方法,将梯度按过去梯度的平方值的平均值的某种形式的平方根来缩放梯度。尽管这些自适应方法很受欢迎,但它们的泛化能力和样本外行为可能比非自适应方法差。同样在对自适应方法A本文档来自技高网...

【技术保护点】
1.一种具有动态学习速率边界的分布式自适应矩估计方法,其特征在于:网络拓扑的自适应性,分布式网络中所有节点只能与其邻居通信,没有一个节点被指定为“中心”。并且受梯度裁剪的启发,在分布式ADAM中使用了学习速率的裁剪,用于裁剪大于阈值的学习率,以避免极端学习率的发生。/n

【技术特征摘要】
1.一种具有动态学习速率边界的分布式自适应矩估计方法,其特征在于:网络拓扑的自适应性,分布式网络中所有节点只能与其邻居通信,没有一个节点被指定为“中心”。并且受梯度裁剪的启发,在分布式ADAM中使用了学习速率的裁剪,用于裁剪大于阈值的学习率,以避免极端学习率的发生。


2.根据权利要求1所述的分布式网络中所有节点只能与其邻居通信,没有一个节点被指定为“中心”。其...

【专利技术属性】
技术研发人员:申修宇李德权方润月
申请(专利权)人:安徽理工大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1