模型生成方法和装置制造方法及图纸

技术编号:18445727 阅读:27 留言:0更新日期:2018-07-14 10:42
本申请实施例公开了模型生成方法和装置。该方法的一具体实施方式包括:创建与用于生成原始模型的原始神经网络的结构相同的神经网络,去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;通过训练操作对目标神经网络进行训练,得到目标模型。通过去除创建的与用于生成原始模型的原始神经网络结构相同的神经网络的部分层,得到占用的存储空间较小的目标神经网络,利用原始模型的输出层和中间层的输出对目标神经网络进行训练,得到精度达到精度阈值的目标模型。减少了构建占用的存储空间较小的目标神经网络的开销以及减少了为使得最后得到的占用的存储空间较小的目标模型达到精度阈值所需的训练开销。

Model generation method and device

The application embodiment discloses a method and device for generating a model. The implementation of this method includes: creating a neural network with the same structure as the original neural network used to generate the original model, removing the multiple layers to be removed from the created neural network, and getting the target neural network used to generate the target model corresponding to the original model; and the target nerve is trained by training. The network is trained and the target model is obtained. By removing the part of the neural network that is the same as the original neural network structure that is used to generate the original model, the target neural network is obtained, and the target neural network is trained by the output layer of the original model and the output of the middle layer to get the target model with precision threshold. Type. It reduces the cost of constructing the target neural network with smaller storage space and reduces the training cost to achieve the precision threshold for the target model that has a smaller storage space.

【技术实现步骤摘要】
模型生成方法和装置
本申请涉及计算机领域,具体涉及神经网络领域,尤其涉及模型生成方法和装置。
技术介绍
神经网络被广泛应用在图像识别、语音识别、搜索等领域。训练后的达到一定精度的可被应用的神经网络也可以称之为模型。神经网络的结构越小,占用的存储空间越少。目前,当一个模型运行在存储空间较小的终端设备上时,通常采用的方式为构建一个结构较小的神经网络,对构建的结构较小的神经网络进行初始化后开始进行训练,最后得到结构较小的模型。神经网络占用的存储空间越少,为使最后得到的模型达到精度阈值所需的训练开销越大。
技术实现思路
本申请实施例提供了模型生成方法和装置。第一方面,本申请实施例提供了模型生成方法,该方法包括:创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;通过训练操作对所述目标神经网络进行训练,得到所述目标模型,所述训练操作包括:将目标神经网络的训练样本分别输入到原始模型和目标神经网络;基于原始模型的输出和目标神经网络的输出的差异,对目标神经网络的输出层中的参数的参数值进行更新,以及基于目标神经网络中的被选取出的中间层的输出与原始模型中对应于目标神经网络中的被选取出的中间层的中间层的输出的差异,对目标神经网络中的与被选取出的中间层相关联的层中的参数的参数值进行更新。第二方面,本申请实施例提供了模型生成装置,该装置包括:处理单元,配置用于创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;训练单元,配置用于通过训练操作对所述目标神经网络进行训练,得到所述目标模型,所述训练操作包括:将目标神经网络的训练样本分别输入到原始模型和目标神经网络;基于原始模型的输出和目标神经网络的输出的差异,对目标神经网络的输出层中的参数的参数值进行更新,以及基于目标神经网络中的被选取出的中间层的输出与原始模型中对应于目标神经网络中的被选取出的中间层的中间层的输出的差异,对目标神经网络中的与被选取出的中间层相关联的层中的参数的参数值进行更新。本申请实施例提供的模型生成方法和装置,通过创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;通过训练操作对所述目标神经网络进行训练,得到所述目标模型。实现了通过去除创建的与用于生成原始模型的原始神经网络结构相同的神经网络的部分层,得到占用的存储空间较小的目标神经网络,利用原始模型的输出层和中间层的输出对目标神经网络进行训练,得到精度达到精度阈值的目标模型。减少了构建占用的存储空间较小的目标神经网络的开销以及减少了为使得最后得到的占用存储空间较小的目标模型达到精度阈值所需的训练开销。附图说明通过阅读参照下述附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出了可以应用本申请的模型生成方法的示例性系统架构;图2示出了根据本申请的模型生成方法的一个实施例的流程图;图3示出了根据本申请的模型生成装置的一个实施例的结构示意图;图4示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。请参考图1,其示出了可以应用本申请的模型生成方法的示例性系统架构。如图1所示,系统架构可以包括终端设备101、网络102、服务器103。网络102可以为无线通信网络或有线通信网络。服务器103可以运行有占用存储空间较大并且精度较高的原始模型,例如,服务器103运行的原始模型为占用存储空间较大并且精度较高的人脸识别模型,该人脸识别模型通过对一个卷积神经网络进行训练而得到。服务器103可以去除创建的与原始模型对应的原始神经网络结构相同的神经网络的部分层,得到占用的存储空间较小的目标神经网络,利用原始模型的输出层和中间层的输出对该目标神经网络进行训练,得到占用的存储空间较小的精度达到精度阈值的目标模型,将目标模型发送至终端设备101。精度阈值可以设置为与原始模型的精度的差值小于差值阈值。例如,终端设备101为运行人脸识别模型的闸机,服务器103可以去除创建的与用于生成原始模型的卷积神经网络结构相同的一个卷积神经网络的部分中间层,得到目标神经网络,对该目标神经网络进行训练,得到一个占用存储空间较小的精度达到精度阈值的作为目标模型的人脸识别模型,服务器103将该占用存储空间较小的作为目标模型的人脸识别模型发送至终端设备101,在终端设备101上运行该占用存储空间较小的精度达到精度阈值的作为目标模型的人脸识别模型。请参考图2,其示出了根据本申请的模型生成方法的一个实施例的流程。需要说明的是,本申请实施例所提供的模型生成方法可以由服务器(例如图1中的服务器103)执行。该方法包括以下步骤:步骤201,创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的部分中间层。在本实施例中,位于神经网络的输入层和输出层之间的层均可以称之为中间层。原始模型通过预先对用于生成原始模型的原始神经网络进行训练而生成。为了生成原始模型对应的目标模型,需要首先得到用于生成目标模型的目标神经网络。可以首先创建一个与原始神经网络的结构相同的神经网络,原始神经网络包含多个层,与原始神经网络的结构相同的神经网络中也包含多个层。在一个神经网络中,输入层的层次序最低,输出层的层次序最高。在本实施例中,可以从创建的神经网络的所有中间层中选取出一些中间层作为多个待去除的中间层,然后去除选取出的多个待去除的中间层,将去除了该创建的神经网络中的多个待去除的中间层之后得到的神经网络作为目标神经网络,从而得到目标神经网络。目标神经网络包括:创建的神经网络中的输入层、创建的神经网络中的输出层和创建的神经网络中的所有未被去除的中间层。换言之,创建的神经网络中的输入层作为目标神经网络的输入层,创建的神经网络中的输出层作为目标神经网络的输出层,创建的神经网络中的每一个未被去除的中间层分别作为目标神经网络的一个中间层。由于创建的神经网络与原始神经网络的结构相同,目标神经网络中的每一个中间层可以分别对应原始神经网络中的一个中间层,即目标神经网络中的每一个中间层可以分别对应原始模型中的一个中间层。目标神经网络中的一个中间层与原始神经网络中的该目标神经网络中的一个目标中间层组合应的一个中间层的结构相同,在去除创建的神经网络中的多个待去除的中间层之前该目标神经网络中的一个中间层的层次序与原始神经网络中的该目标神经网络中的一个目标中间层组合应的一个中间层的层次序相同。在本实施例的一些可选的实现方式中,原始神经网络和目标神经网络的类型可以均为卷积神经网络。去除的创建的卷积神经网络中的多个待去除的中间本文档来自技高网...

【技术保护点】
1.一种模型生成方法,包括:创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;通过训练操作对所述目标神经网络进行训练,得到所述目标模型,所述训练操作包括:将目标神经网络的训练样本分别输入到原始模型和目标神经网络;基于原始模型的输出和目标神经网络的输出的差异,对目标神经网络的输出层中的参数的参数值进行更新,以及基于目标神经网络中的被选取出的中间层的输出与原始模型中对应于目标神经网络中的被选取出的中间层的中间层的输出的差异,对目标神经网络中的与被选取出的中间层相关联的层中的参数的参数值进行更新。

【技术特征摘要】
1.一种模型生成方法,包括:创建与用于生成原始模型的原始神经网络的结构相同的神经网络,以及去除创建的神经网络的多个待去除的中间层,得到用于生成原始模型对应的目标模型的目标神经网络;通过训练操作对所述目标神经网络进行训练,得到所述目标模型,所述训练操作包括:将目标神经网络的训练样本分别输入到原始模型和目标神经网络;基于原始模型的输出和目标神经网络的输出的差异,对目标神经网络的输出层中的参数的参数值进行更新,以及基于目标神经网络中的被选取出的中间层的输出与原始模型中对应于目标神经网络中的被选取出的中间层的中间层的输出的差异,对目标神经网络中的与被选取出的中间层相关联的层中的参数的参数值进行更新。2.根据权利要求1所述的方法,基于原始模型的输出和目标神经网络的输出的差异,对目标神经网络的输出层中的参数的参数值进行更新,以及基于目标神经网络中的被选取出的中间层的输出与原始模型中对应于目标神经网络中的被选取出的中间层的中间层的输出的差异,对目标神经网络中的与被选取出的中间层相关联的层中的参数的参数值进行更新包括:利用输出层损失函数更新目标神经网络的输出层中的参数的参数值,以及利用目标中间层组合对应的中间层损失函数更新目标神经网络中与目标中间层组合相关联的层中的参数的参数值,其中,目标中间层组合包括:目标神经网络中的两个中间层,输出层损失函数用于计算原始模型的输出向量和目标神经网络的输出向量的差异,目标中间层组合对应的中间层损失函数用于计算所述目标中间层组合中的两个中间层的输出向量之间的转换关系与原始模型中对应于所述目标中间层组合的原始中间层组合中的两个中间层的输出向量之间的转换关系的差异。3.根据权利要求2所述的方法,所述目标中间层组合对应的中间层损失函数为计算目标转换关系向量和原始转换关系向量的欧式距离的函数,其中,目标转换关系向量基于将表示目标中间层组合中的两个中间层的输出向量之间的转换关系的矩阵进行向量化而得到,原始转换关系向量基于将表示原始模型中对应于所述目标中间层组合的原始中间层组合中的两个中间层的输出向量之间的转换关系的矩阵进行向量化而得到。4.根据权利要求3所述的方法,利用目标中间层组合对应的中间层损失函数更新目标神经网络中与目标中间层组合相关联的层中的参数的参数值包括:基于所述目标中间层组合对应的中间层损失函数,计算出中间层梯度信息,所述中间层梯度信息包括:目标神经网络中的所述目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层中的参数的梯度;基于所述中间层梯度信息,更新目标神经网络中的所述目标中间层组合中的最高中间层与目标神经网络的输入层之间的每一层中的参数的参数值。5.根据权利要求4所述的方法,目标中间层组合中的每一个中间层的输出向量的维度相同。6.根据权利要求1-5之一所述的方法,原始神经网络和目标神经网络的类型均为卷积神经网络。7.根据权利要求6所述的方法,目标中间层组合中的每一个中间层均为卷积层。8.一种模型生成装置,包括:处理单元...

【专利技术属性】
技术研发人员:张刚
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1