【技术实现步骤摘要】
一种神经网络的训练方法及相关设备
本申请实施例涉及深度学习
,尤其涉及一种神经网络的训练方法及相关设备。
技术介绍
深度学习(DeepLearning,DL)是机器学习(MachineLearning,ML)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(ArtificialIntelligence,AI)。随着深度学习技术的发展,深度神经网络(DeepNeuralNetworks,DNN)已经被广泛应用到各个领域中。例如,作为深度神经网络的一种,卷积神经网络(ConvolutionalNeuralNetwork,CNN)已经被成功地应用于图片分类、物体检测等领域。然而,卷积神经网络的应用需要巨大的计算资源,所以难以直接将卷积神经网络直接应用于手机、摄像头、机器人等计算能力有限的设备上。为了解决这一问题,许多神经网络的压缩算法和加速算法被提出,将此类算法应用到深度神经网络中可以带来非常高的压缩比和加速比,并且对原网络的精度影响非常小。其中一种方法就是对占用空间较大的权重进行二 ...
【技术保护点】
1.一种神经网络的训练方法,其特征在于,包括:/n在前向传播过程中,采用二值化函数对目标权重进行二值化处理,以得到神经网络中第一神经网络层的权重,所述第一神经网络层为所述神经网络中的一层神经网络;/n在反向传播过程中,以拟合函数的梯度为所述二值化函数的梯度计算损失函数对所述目标权重的梯度,所述拟合函数是基于所述二值化函数的级数展开确定的。/n
【技术特征摘要】
1.一种神经网络的训练方法,其特征在于,包括:
在前向传播过程中,采用二值化函数对目标权重进行二值化处理,以得到神经网络中第一神经网络层的权重,所述第一神经网络层为所述神经网络中的一层神经网络;
在反向传播过程中,以拟合函数的梯度为所述二值化函数的梯度计算损失函数对所述目标权重的梯度,所述拟合函数是基于所述二值化函数的级数展开确定的。
2.根据权利要求1所述的训练方法,其特征在于,所述拟合函数由多个子函数和误差函数构成,所述多个子函数是基于所述二值化函数的级数展开确定的。
3.根据权利要求2所述的训练方法,其特征在于,所述误差函数是采用带残差的两层全连接神经网络拟合的。
4.根据权利要求2所述的训练方法,其特征在于,所述误差函数由至少一层神经网络拟合;
所述在反向传播过程中,以拟合函数的梯度为所述二值化函数的梯度计算损失函数对所述目标权重的梯度包括:
在反向传播过程中,计算所述多个子函数对所述目标权重的梯度;
计算所述至少一层神经网络对所述目标权重的梯度;
基于所述多个子函数对所述目标权重的梯度以及所述至少一层神经网络对所述目标权重的梯度,计算损失函数对所述目标权重的梯度。
5.根据权利要求1所述的训练方法,其特征在于,所述拟合函数由多个子函数构成,所述多个子函数是基于所述二值化函数的级数展开确定的。
6.根据权利要求1至5中任意一项所述的训练方法,其特征在于,所述二值化函数的级数展开为所述二值化函数的傅里叶级数展开、所述二值化函数的小波级数展开或所述二值化函数的离散傅里叶级数展开。
7.根据权利要求1至6中任意一项所述的训练方法,其特征在于,所述目标权重的数据类型为32位的浮点型、64位的浮点型、32位的整型或8位的整型。
8.一种神经网络的训练方法,其特征在于,包括:
在前向传播过程中,采用二值化函数对第二神经网络层的激活值进行二值化处理,以得到第一神经网络层的输入,所述第一神经网络层和所述第二神经网络层属于同一神经网络;
在反向传播过程中,以拟合函数的梯度为所述二值化函数的梯度计算损失函数对所述激活值的梯度,所述拟合函数是基于所述二值化函数的级数展开确定的。
9.根据权利要求8所述的训练方法,其特征在于,所述拟合函数由多个子函数和误差函数构成,所述多个子函数是基于所述二值化函数的级数展开确定的。
10.根据权利要求9所述的训练方法,其特征在于,所述误差函数是采用带残差的两层全连接神经网络拟合的。
11.根据权利要求9所述的训练方法,其特征在于,所述误差函数由至少一层神经网络拟合;
所述在反向传播过程中,以拟合函数的梯度为所述二值化函数的梯度计算损失函数对所述激活值的梯度包括:
在反向传播过程中,计算所述多个子函数对所述激活值的梯度;
计算所述至少一层神经网络对所述激活值的梯度;
基于所述多个子函数对所述激活值的梯度以及所述至少一层神经网络对所述激活值的梯度,计算损失函数对所述激活值的梯度。
12.根据权利要求8所述的训练方法,其特征在于,所述拟合函数由多个子函数构成,所述多个子函数是基于所述二值化函数的级数展开确定的。
13.根据权利要求8至12中任意一项所述的训练方法,其特征在于,所述二值化函数的级数展开为所述二值化函数的傅里叶级数展开、所述二值化函数的小波级数展开或所述二值化函数的离散傅里叶级数展开。
14.根据权利要求8至13中任意一项所述的训练方法,其特征在于,所述激活值的数据类型为32位的浮点型、64位的浮点型、32位的整型或8位的整型。
15.一种神经网络的训练装置,其特征在于,包括:
二值化处理单元,用于在前向传播过程中,采用二值化函数对目标权重进行二值化处理,以得到神经网络中第一神经网络层的权重,所述第一神经网络层为所述神经网络中的一层神经网络;
梯度计算单元,用于在反向传播过程中,以拟合函数的梯度为所述二值化函数的梯度计算损失函数对所述目标权重的梯度,所述拟合函数是基于...
【专利技术属性】
技术研发人员:许奕星,韩凯,唐业辉,王云鹤,许春景,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。