The embodiment of the invention provides a method and a device type training model of Alexnet network, the method includes: the first graphics processing unit GPU the first gradient calculation in class Alexnet network under the gradient value and the second value; receiving second graphics processing unit GPU to send in the Alexnet network under the third gradient value basis; the first and third gradient gradient value model to calculate the parameters of the first class of Alexnet network; receiving the second graphics processing unit GPU sent in the Alexnet network under the fourth gradient value; according to the second gradient values and fourth gradient value calculation of the second parameter model of Alexnet network; by using the first model parameters and model parameters of the second training class Alexnet network model, the computation and communication two processes separately, further make the class Alexnet network The calculation of the stacked layer and the communication of the full connection parameters can effectively reduce the time spent in the model training process and improve the efficiency of the model training.
【技术实现步骤摘要】
一种类Alexnet网络的模型训练方法和装置
本申请涉及信息
,特别是涉及一种类Alexnet网络的模型训练方法和一种类Alexnet网络的模型训练装置。
技术介绍
人工智能(ArtificialIntelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。近年来,深度学习(DeepLearning)直接尝试解决抽象认知的难题,并取得了突破性的进展。深度学习引爆的这场革命,将人工智能带上了一个新的台阶,不仅学术意义巨大,而且实用性很强。深度学习的动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。通常,深度学习是通过建立相应的网络模型,采用模型训练的方式来进行的。根据不同的学习框架建立的学习模型很是不同,例如,卷积神经网络(Convolutionalneuralnetworks,简称CNNs)就是一种深度的监督学习下的机器学习模型,其中,Alexnet网络又是开发者经常使用的一种经典的卷积神经网络。如图1所示,是一种Alexnet网络的结构示例图。在Alexnet网络中,比较重要的两种层类型为卷积层Convolution(即图1中Convolution1至pool5部分)和全连接层InnerProduct(即图1中InnerProduct6至loss ...
【技术保护点】
一种类Alexnet网络的模型训练方法,其特征在于,包括:采用第一图形处理单元GPU计算在类Alexnet网络下的第一梯度值和第二梯度值;接收第二图形处理单元GPU发送的在所述类Alexnet网络下的第三梯度值;依据所述第一梯度值和第三梯度值计算所述类Alexnet网络的第一模型参数;接收所述第二图形处理单元GPU发送的在所述类Alexnet网络下的第四梯度值;依据所述第二梯度值和第四梯度值计算所述类Alexnet网络的第二模型参数;采用所述第一模型参数和第二模型参数训练所述类Alexnet网络的模型。
【技术特征摘要】
1.一种类Alexnet网络的模型训练方法,其特征在于,包括:采用第一图形处理单元GPU计算在类Alexnet网络下的第一梯度值和第二梯度值;接收第二图形处理单元GPU发送的在所述类Alexnet网络下的第三梯度值;依据所述第一梯度值和第三梯度值计算所述类Alexnet网络的第一模型参数;接收所述第二图形处理单元GPU发送的在所述类Alexnet网络下的第四梯度值;依据所述第二梯度值和第四梯度值计算所述类Alexnet网络的第二模型参数;采用所述第一模型参数和第二模型参数训练所述类Alexnet网络的模型。2.根据权利要求1所述的方法,其特征在于,所述类Alexnet网络由全连接层和卷积层组成,所述采用第一图形处理单元GPU计算在类Alexnet网络下的第一梯度值和第二梯度值的步骤包括:采用第一图形处理单元GPU计算在所述全连接层下的第一梯度值和在所述卷积层下的第二梯度值。3.根据权利要求2所述的方法,其特征在于,所述第一图形处理单元GPU包括第一计算队列,所述采用第一图形处理单元GPU计算在所述全连接层下的第一梯度值和在所述卷积层下的第二梯度值的步骤包括:采用第一计算队列计算在所述全连接层下的第一梯度值和在所述卷积层下的第二梯度值。4.根据权利要求3所述的方法,其特征在于,所述第一图形处理单元GPU还包括第一通信队列,所述第二图形处理单元GPU包括第二通信队列,所述接收第二图形处理单元GPU发送的在所述类Alexnet网络下的第三梯度值的步骤包括:采用第一通信队列接收第二通信队列发送的第三梯度值;所述接收所述第二图形处理单元GPU发送的在所述类Alexnet网络下的第四梯度值的步骤包括:采用第一通信队列接收第二通信队列发送的第四梯度值。5.根据权利要求4所述的方法,其特征在于,所述第二图形处理单元还包括第二计算队列,所述第三梯度值和所述第四梯度值分别通过如下步骤获得:采用第二计算队列计算在所述全连接层下的第三梯度值;以及,采用第二计算队列计算在所述卷积层下的第四梯度值。6.根据权利要求1-5任一所述的方法,其特征在于,所述依据所述第一梯度值和第三梯度值计算所述类Alexnet网络的第一模型参数的步骤包括:计算所述第一梯度值和第三梯度值的平均值,获得所述类Alexnet网络的第一模型参数。7.根据权利要求6所述的方法,其特征在于,所述采用所述第二梯度值和第四梯度值计算所述类Alexnet网络的第二模型参数的步骤包括:计算所述第二梯度值和第四梯度值的平均值,获得所述类Alexnet网络的第二模型参数。8.根据权利要求1或2或3或4或5或7所述的方法,其特征在于,在采用第一图形处理单元GPU计算在类Alexnet网络下的第一梯度值和第二梯度值的步骤前,还包括:判断网络是否为类Alexnet网络。9.根据权利要求8所述的方法,其特征在于,所述网络包括m个结构层,所述判断网络是否为类Alexnet网络的步骤包括:对所述网络进行预训练,获得每个结构层的计算时间和参数量;根据所述计算时间和参数量,获得所述网络的计算总时间和总参数量;按照预设传输顺序,逐层累加所述m个结构层的计算时间,分别获得截至第n层的计算时间之和;当所述截至第p层的计算时间之和与所述计算总时间的比值满足第一预设条件时,累加剩余m-p层的参数量,获得所述剩余m-p层的参数量之和;判断所述剩余m-p层的参数量之和与所述总参数量的比值是否满足第二预设条件;若是,则将所述网络划分为类Alexnet网络。10.根据权利要求9所述的方法,其特征在于,所述将所述网络划分为类Alexnet网络的步骤包括:将所述网络的前p层划分为类Alexnet网络的全连接层;将所述剩余m-p层划分为类A...
【专利技术属性】
技术研发人员:王思宇,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。