训练深度神经网络时的利用压缩权重的直接计算制造技术

技术编号：32145966 阅读：18 留言：0更新日期：2022-02-08 14:45

包括参数服务器的分布式训练系统被配置为根据聚类算法来压缩权重度量，然后权重矩阵的压缩表示可以被分发给训练工作方。压缩表示可以包括矩心索引矩阵和矩心表，其中矩心索引矩阵的每个元素对应于对应的权重矩阵的元素并且包括对矩心表的索引，并且其中矩心表的每个元素包括矩心值。在另外的示例方面，通过执行聚集缩减相加操作，该聚集缩减相加操作累加与同一矩心值相对应的训练数据矩阵的所有元素以生成部分总和，将每个部分总和乘以其对应矩心值，并且对生成乘积求和，训练工作方可以直接从权重矩阵和训练数据矩阵的压缩表示来计算激活结果。计算激活结果。计算激活结果。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】训练深度神经网络时的利用压缩权重的直接计算

技术介绍

[0001]深度神经网络(DNN)是在输入层与输出层之间具有多个层的人工神经网络(ANN)。当前对于DNN的趋势是尺寸越来越大，并且当前DNN可能由数百万个参数表征，每个参数都以32位浮点数据格式表示。训练这样的DNN可能具有挑战性，因为实现可扩展解决方案可能很困难或不可能。典型的解决方案试图通过利用多个训练工作方(worker)来开发数据、模型和/或数据模型并行性，每个工作方与其他工作方并行工作。实现这样的解决方案的系统可以利用逻辑上和/或物理上分离的训练工作方，并且通常被称为分布式训练系统。
[0002]分布式训练系统通常通过负责将训练问题分成离散作业的中央服务器(或多个服务器)起作用，每个作业适合由单个训练工作方进行计算。每个作业随后被分发给工作方用于计算，工作方在完成后将计算结果发送回服务器。分布式训练系统允许轻松扩展计算能力，因为增加计算能力只需要增加更多的训练工作方。然而，协调多个训练工作方的活动所需要的通信带宽没有以相同的速度扩展。
[0003]数据压缩技术可以应用于系统服务器与训练工作方之间的通信以减少开销并且提高可扩展性。虽然数据压缩有助于减少通信开销和带宽要求，但每个工作方的进一步任务是解压缩所接收的数据。

技术实现思路

[0004]提供本
技术实现思路
以便以简化的形式介绍在以下“具体实施方式”中进一步描述的概念的选择。本
技术实现思路
不旨在确定所要求保护的主题的关键特征或基本特征，也不旨在用于限制所要求保护的主题的范围。
[0005...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成针对深度神经网络(“DNN”)层的至少一部分的激活结果的激活结果生成系统，包括：一个或多个处理器；以及所述一个或多个处理器可访问的一个或多个存储器设备，所述一个或多个存储器设备存储用于由所述一个或多个处理器执行的软件组件，所述软件组件包括：部分总和生成组件，被配置为：接收权重矩阵和输入矩阵的压缩表示，所述输入矩阵具有输入元素，所述输入元素是到所述DNN层的至少一部分的输入值，以及生成多个部分总和，每个部分总和包括所述输入矩阵中与所述压缩表示中所包括的公共权重值集的公共权重值相对应的输入值的总和；乘积生成组件，被配置为基于所述多个部分总和与所述公共权重值集来生成乘积集；以及激活结果生成组件，被配置为通过对所述乘积集的乘积求和来生成所述激活结果。2.根据权利要求1所述的激活结果生成系统，其中所述部分总和生成组件还被配置为：通过接收矩心索引矩阵和矩心表来接收权重矩阵和输入矩阵的压缩表示，所述矩心索引矩阵包括包含矩心索引值的多个条目，每个矩心索引值包括对所述矩心表的索引，并且所述矩心表包括作为所述公共权重值的多个矩心值。3.根据权利要求2所述的激活结果生成系统，其中所述部分总和生成组件还被配置为通过以下方式生成每个部分总和来生成多个部分总和：选择所述矩心值的矩心索引值，以及对所述输入矩阵中的、在所述矩心索引矩阵中具有包含所选择的所述矩心索引值的对应条目的所述输入元素求和。4.根据权利要求3所述的激活结果生成系统，其中所述乘积生成组件还被配置为：通过将所述多个部分总和的每个部分总和乘以具有被选择用于所述部分总和的生成的所述矩心索引值的所述矩心表中的所述矩心值，以基于所述多个部分总和与所述公共权重值集来生成乘积集。5.根据权利要求1所述的激活结果生成系统，其中所述激活结果是所述DNN的下一层的输入。6.根据权利要求1所述的激活结果生成系统，其中所述激活结果用于反向传播所述D...

【专利技术属性】
技术研发人员：奚锦文，B，
申请(专利权)人：微软技术许可有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人