神经网络模型的训练方法、装置和系统制造方法及图纸

技术编号：23605612 阅读：85 留言：0更新日期：2020-03-28 06:28

本发明专利技术公开了一种神经网络模型的训练方法、装置和系统。其中，该方法包括：按照不同类型的预处理模型对初始数据进行预处理，生成多组训练数据，其中，训练数据包括：元素和元素对应的标签，每组训练数据对应不同的概率分布；将多组训练数据向邻域进行扩展，得到每组训练数据中每个元素对应的线性邻域元素；将线性邻域元素输入至神经网络，并根据神经网络的输出结果，确定损失函数，其中，损失函数用于表征输出结果与元素对应标签的偏差程度；基于损失函数的最小值，得到神经网络的网络参数，其中，神经网络的网络参数用于表征神经网络模型。本发明专利技术解决了现有技术中使用卷积神经网络模型的设备的存储和计算资源有限，导致难以提升卷积神经网络模型的技术问题。

Training method, device and system of neural network model

全部详细技术资料下载

【技术实现步骤摘要】
神经网络模型的训练方法、装置和系统
本专利技术涉及神经网络领域，具体而言，涉及一种神经网络模型的训练方法、装置和系统。
技术介绍
卷积神经网络(ConvolutionalNeuralNetwork，CNN)目前已广泛应用于计算机视觉任务中，通常包括数据输入层、卷积计算层、激励层、池化层以及全连接层，其中，卷积计算层是卷积神经网络最重要的一层，为了提升卷积神经网络模型的性能，目前常用的方式是调整卷积神经网络的参数。但卷积神经网络的一个发展趋势即为向移动嵌入式设备部署，前端上位机既包括arm(AdvancedRISCMachines，是一种RISC处理器)平台的嵌入式设备，也包括FPGA(Field-ProgrammableGateArray，现场可编程门阵列)设备，这些设备都一个共同特点，即存储和计算资源都很有限，而为了提升卷积神经网络模型的性能而调整卷积神经网络的参数则会占用设备的大量计算资源。针对现有技术中使用卷积神经网络模型的设备的存储和计算资源有限，导致难以提升卷积神经网络模型的问题，目前尚未提出有效的...

【技术保护点】
1.一种神经网络模型的训练方法，包括：/n按照不同类型的预处理模型对初始数据进行预处理，生成多组训练数据，其中，所述训练数据包括：元素和所述元素对应的标签，每组训练数据对应不同的概率分布；/n将所述多组训练数据向邻域进行扩展，得到每组训练数据中每个元素对应的线性邻域元素；/n将所述线性邻域元素输入至神经网络，并根据所述神经网络的输出结果，确定损失函数，其中，所述损失函数用于表征所述输出结果与所述元素对应标签的偏差程度；/n基于所述损失函数的最小值，得到所述神经网络的网络参数，其中，所述神经网络的网络参数用于表征所述神经网络模型。/n

【技术特征摘要】
1.一种神经网络模型的训练方法，包括：
按照不同类型的预处理模型对初始数据进行预处理，生成多组训练数据，其中，所述训练数据包括：元素和所述元素对应的标签，每组训练数据对应不同的概率分布；
将所述多组训练数据向邻域进行扩展，得到每组训练数据中每个元素对应的线性邻域元素；
将所述线性邻域元素输入至神经网络，并根据所述神经网络的输出结果，确定损失函数，其中，所述损失函数用于表征所述输出结果与所述元素对应标签的偏差程度；
基于所述损失函数的最小值，得到所述神经网络的网络参数，其中，所述神经网络的网络参数用于表征所述神经网络模型。

2.根据权利要求1所述的方法，其中，所述预处理模型用于对所述初始数据进行如下至少一种：随机翻转，随机镜像，缩放和区域随机割取。

3.根据权利要求1所述的方法，其中，将所述多组训练数据向邻域进行扩展，得到每组训练数据中每个元素对应的线性邻域元素，包括：
对所述训练数据中的元素进行随机排序，得到所述训练数据对应的随机排序数据集；
基于所述训练数据和所述随机排序数据集，确定所述训练数据中每个元素相对任意一个其他元素的线性邻域元素。

4.根据权利要求3所述的方法，其中，基于所述训练数据和所述随机排序数据集，确定所述训练数据中每个元素相对任意一个其他元素的线性邻域元素，包括：
获取预设的系数；
获取所述系数与所述训练数据中每个元素的第一乘积构成的第一乘积集合；
获取1与所述系数的差值；
获取所述每个元素在随机排序数据集中对应位置的元素与所述差值的第二乘积构成的第二乘积集合；
确定所述第一乘积集合与所述第二乘积集合之和为所述训练数据的线性邻域元素集合，其中，所述线性邻域元素集合包括所述训练数据中每个元素相对任意一个其他元素的线性邻域元素。

5.根据权利要求3所述的方法，其中，所述损失函数为邻域相关损失函数，将所述线性邻域元素输入至神经网络，并根据所述神经网络的输出结果，确定损失函数，包括：
基于所述多组训练数据中元素对应的标签和所述线性邻域元素在所述神经网络最后一层的输出结果，确定所述训练数据的整体邻域损失函数；
根据所述线性邻域元素在随机扰动层的输出结果与所述线性邻域元素在所述神经网络最后一层的输出结果确定整体相关损失函数，其中，所述随机扰动层为与所述神经网络的最后一层并行的层；
确定所述整体邻域损失函数与所述整体相关损失函数之和为所述邻域相关损失函数。

6.根据权利要求5所述的方法，其中，基于所述多组训练数据中元素对应的标签和所述线性邻域元素在所述神经网络最后一层的输出结果，确定所述训练数据的整体邻域损失函数，包括：
基于所述多组训练数据中元素对应的标签和所述线性邻域元素在所述神经网络最后一层的输出结果，确定所述训练数据的邻域损失函数；
获取所述每组训练数据在所述神经网络中对应的第一权重；
根据所述第一权重，对所述每组训练数据对应的邻域损失函数进行加权，得到所述整体邻域损失函数。

7.根据权利要求6所述的方法，其中，基于所述多组训练数据中元素对应的标签和所述线性邻域元素在所述神经网络最后一层的输出结果，确定所述训练数据的邻域损失函数，包括：
获取所述训练数据中元素的第一标签、所述随机排序数据集中相同位置的元素的第二标签，以及所述线性邻域元素在所述神经网络最后一层的输出结果；
获取所述第一标签与所述线性邻域元素对应的输出结果之间的第一损失函数，和所述第二标签与所述线性邻域元素对应的输出结果之间的第二损失函数；
基于所述第一损失函数和所述第二损失函数确定所述训练数据中每个元素对应的邻域损失函数。

8.根据权利要求5所述的方法，其中，根据所述线性邻域元...

【专利技术属性】
技术研发人员：陈伟涛，王洪彬，李昊，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人