一种神经网络声学模型的分布式并行训练方法及系统技术方案

技术编号：14410149 阅读：239 留言：0更新日期：2017-01-11 20:36

本发明专利技术提供一种神经网络声学模型的分布式并行训练方法及系统，所述方法包含：步骤101)将各组训练数据分别输入一个客户端；步骤102)客户端接收输入的训练数据，并采用总线在客户端设置的若干个GPU和第一CPU之间传递参数，所述参数包含：模型权重和梯度；各个GPU基于输入的模型权重参数计算梯度，并将计算得到的梯度输入至第一CPU中；第一CPU利用GPU上传的梯度更新客户端中的模型副本，将更新后的权重参数回传给各个GPU，用于进行新的梯度计算，同时，第一CPU累积各GPU输入的梯度，根据累积结果更新参数服务器中的模型；步骤103)采用网络资源将各个客户端CPU累积得到的最新的梯度信息输入服务器，然后更新服务器中存储的神经网络声学模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音识别领域，是一种利用多台计算机节点，并行训练神经网络以提高神经网络声学模型的训练速度的方法，具体涉及一种神经网络声学模型的分布式并行训练方法及系统。
技术介绍
目前利用大数据量和深度神经网络(DeepNeuralNetwork，DNN)建立声学模型的方法已经在语音识别领域取得了突出的成果，使得最终的识别准确度提升了相对20％～30％。DNN是一种以连接权重和结点来模拟人脑中神经元工作的技术，可以视作一种分类器，DNN结构主要包括输入层，隐层和输出层，相邻层的结点之间有带权重的线连接，输出层的结点数量由目标类别数量所决定，数据从输入层进入网络，经由一系列的权重计算和非线性激活函数，最终到达输出层，得到该数据被分为每一类的概率值。在语音识别领域中，DNN的输入为语音特征，输出为音素状态。由于DNN具有很强的非线性表达能力，能够对输入的语音特征进行更好的转换表达，以用于输出层的分类，同时，数据量越大，DNN的层数越多，参数量越大，训练所得到的神经网络分类能力越好，最终的识别准确率越高，但是神经网络的训练采用误差反向传播(ErrorBackPropagation)和随机梯度下降(StochasticGradientDescent，SGD)的收敛方式，训练速度极慢。在当今的大数据时代，神经网络声学模型的训练通常需要数千甚至数万小时的语音数据，即使使用目前浮点计算能力最强的GPU(GraphicsProcessingUnit)进行辅助运算，仍需要数月时间完成一次模型的训练，这在研究和实际应用中都是不能接受的。因此针对神经网络训练周期过长的问题，对神...
一种神经网络声学模型的分布式并行训练方法及系统

【技术保护点】
一种神经网络声学模型的分布式并行训练方法，所述方法包含：步骤101)将各组训练数据分别输入一个客户端；步骤102)客户端接收输入的训练数据，并采用总线在客户端设置的若干个GPU和第一CPU之间传递参数，所述参数包含：模型权重和梯度；各个GPU基于输入的模型权重参数计算梯度，并将计算得到的梯度输入至第一CPU中；第一CPU利用GPU上传的梯度更新客户端中的模型副本，将更新后的权重参数回传给各个GPU，用于进行新的梯度计算，同时，第一CPU累积各GPU输入的梯度，根据累积结果更新参数服务器中的模型；步骤103)采用网络资源将各个客户端CPU累积得到的最新的梯度信息输入服务器，然后更新服务器中存储的神经网络声学模型；其中，各个客户端按照固定的队列顺序依次循环上传计算得到的梯度至服务器；所述服务器还向各个客户端发送模型权重信息，该模型权重信息用于替换客户端中的模型副本，作为各GPU计算新梯度的依据。

【技术特征摘要】
1.一种神经网络声学模型的分布式并行训练方法，所述方法包含：步骤101)将各组训练数据分别输入一个客户端；步骤102)客户端接收输入的训练数据，并采用总线在客户端设置的若干个GPU和第一CPU之间传递参数，所述参数包含：模型权重和梯度；各个GPU基于输入的模型权重参数计算梯度，并将计算得到的梯度输入至第一CPU中；第一CPU利用GPU上传的梯度更新客户端中的模型副本，将更新后的权重参数回传给各个GPU，用于进行新的梯度计算，同时，第一CPU累积各GPU输入的梯度，根据累积结果更新参数服务器中的模型；步骤103)采用网络资源将各个客户端CPU累积得到的最新的梯度信息输入服务器，然后更新服务器中存储的神经网络声学模型；其中，各个客户端按照固定的队列顺序依次循环上传计算得到的梯度至服务器；所述服务器还向各个客户端发送模型权重信息，该模型权重信息用于替换客户端中的模型副本，作为各GPU计算新梯度的依据。2.根据权利要求1所述的神经网络声学模型的分布式并行训练方法，其特征在于，所述客户端上设置的GPU的数目为：K^=N·TcalcfrmM·Tcommfloat-Tcalcupd]]>其中，N为第一CPU每次计算的数据块的大小，为单帧数据的梯度计算时间，M为神经网络声学模型的大小，为单个浮点数在网络中的传递时间，为神经网络声学模型的更新时间。3.根据权利要求1所述的神经网络声学模型的分布式并行训练方法，其特征在于，所述步骤102)进一步包含：步骤102-1)选定第一CPU每次计算的数据块的大小M；步骤102-2)将长度为M的选定的数据块再分割成更小的数据块，再将各个更小的数据块分发至一块GPU中；步骤102-3)GPU基于模型权重参数对输入的更小的数据块进行计算得到梯度。4.根据权利要求1所述的神经网络声学模型的分布式并行训练方法，其特征在于，所述步骤103)之后还包含：对梯度加入冲量项进行平滑计...

【专利技术属性】
技术研发人员：那兴宇，王智超，潘接林，颜永红，
申请(专利权)人：中国科学院声学研究所，北京中科信利技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人