【技术实现步骤摘要】
神经网络模型的训练方法、数据处理方法及装置
[0001]本申请涉及人工智能领域,并且更具体地,涉及一种神经网络模型的训练方法、数据处理方法及装置。
技术介绍
[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
[0003]深度神经网络是一种具有深度结构的前馈神经网络,是深度学习的代表算法之一。深度神经网络具有强大的特征表达能力,广泛应用于图像、视频以及语音等多种媒体信号的处理与分析任务中。激活函数是深度神经网络的一个重要组成部分。激活函数通常被置于卷 ...
【技术保护点】
【技术特征摘要】
1.一种神经网络模型的训练方法,其特征在于,包括:获取训练数据;基于所述训练数据对神经网络模型进行训练,所述神经网络模型的激活函数包括至少一个分段函数,所述分段函数包括多个可训练参数;在对所述神经网络模型进行训练的训练过程中更新所述至少一个分段函数的多个可训练参数,得到目标神经网络模型。2.根据权利要求1所述的方法,其特征在于,所述至少一个分段函数为分段线性函数,所述至少一个分段函数的参数包括以下一个或多个:分界点的数量、右边界、左边界、定义域最大的区间上的斜率、定义域最小的区间的斜率或分界点对应的函数值。3.根据权利要求2所述的方法,其特征在于,所述对神经网络模型进行训练的训练过程包括第一阶段和第二阶段,所述第一阶段在所述第二阶段之前执行,以及所述在对所述神经网络模型进行训练的训练过程中更新所述至少一个分段函数的多个可训练参数,包括:在所述第二阶段中,根据所述至少一个分段函数中的多个可训练参数的梯度更新所述至少一个分段函数的多个可训练参数;其中,所述至少一个分段函数中的右边界和左边界在所述第二阶段的初始值是根据所述第一阶段中输入至所述至少一个分段函数的特征的分布情况确定的。4.根据权利要求3所述的方法,其特征在于,在所述第一阶段中,所述至少一个分段函数中的多个可训练参数保持不变。5.根据权利要求3所述的方法,其特征在于,所述第一阶段中输入至所述至少一个分段函数的特征的分布情况由所述第一阶段的最后一次迭代后得到的特征的预测平均值和特征的预测标准差表示,所述特征的预测平均值和所述特征的预测标准差是通过滑动平均法确定的。6.根据权利要求5所述的方法,其特征在于,所述特征的预测平均值和所述特征的预测标准差满足以下公式:其中,R
mean_j
表示第j次迭代后得到的所述特征的预测平均值,R
mean_j+1
表示第j+1次迭代后得到的特征的预测平均值,R
std_j
表示第j次迭代后得到的特征的预测标准差,R
std_j+1
表示第j+1次迭代后得到的特征的预测标准差,j为大于或等于0的整数,j=0时,R
mean_0
表示所述特征的预测平均值的初始值,R
std_0
表示所述特征的预测标准差的初始值,R
mean_0
=0,R
std_0
=0;mean(x)表示所述特征的平均值,std(x)表示所述特征的标准差,a表示R
mean_j
的权重参数,b表示R
std_j
的权重参数。7.根据权利要求5或6所述的方法,其特征在于,所述至少一个分段函数中的右边界RB在所述第二阶段的初始值满足如下公式:RB=R
mean
+c*R
std
;所述至少一个分段函数中的左边界LB在所述第二阶段的初始值满足如下公式:LB=R
mean
‑
c*R
std
;
其中,R
mean
表示所述第一阶段的最后一次迭代后得到的特征的预测平均值;R
std
表示所述第一阶段的最后一次迭代后得到的特征的预测标准差,c表示参数。8.根据权利要求2至7中任一项所述的方法,其特征在于,所述至少一个分段函数中的多个可训练参数包括:右边界、左边界、定义域最大的区间上的斜率、定义域最小的区间的斜率或分界点对应的函数值。9.根据权利要求1至8中任一项所述的方法,其特征在于,所述分段函数的分段数为6至18中的任一值。10.一种数据处理方法,其特征在于,包括:获取待处理的数据,所述数据包括:图像数据,语音数据或者文本数据;利用目标神经网络模型对所述待处理的数据进行处理,得到所述待处理的数据的处理结果;其中,所述目标神经网络模型是基于训练数据对神经网络模型进行训练得到的,所述神经网络模型的激活函数包括至少一个分段函数,所述目标神经网络模型的激活函数包括至少一个目标分段函数,所述目标分段函数是在对所述神经网络模型进行训练的过程中对所述分段函数的多个可训练参数进行更新得到的。11.根据权利要求10所述的方法,其特征在于,所述至少一个分段函数为分段线性函数,所述至少一个分段函数的参数包括以下一个或多个:分界点的数量、右边界、左边界、定义域最大的区间上的斜率、定义域最小的区间的斜率或分界点对应的函数值。12.根据权利要求11所述的方法,其特征在于,所述对神经网络模型进行训练的训练过程包括第一阶段和第二阶段,所述第一阶段在所述第二阶段之前执行,以及所述目标分段函数是在对所述神经网络模型进行训练的过程中对所述分段函数的多个可训练参数进行更新得到的,包括:所述目标分段函数是在所述第二阶段中根据所述分段函数中的多个可训练参数的梯度对所述分段函数的多个可训练参数进行更新得到的,其中,所述分段函数中的右边界和左边界在所述第二阶段的初始值是根据所述第一阶段中输入至所述分段函数的特征的分布情况确定的。13.根据权利要求12所述的方法,其特征在于,在所述第一阶段中,所述至少一个分段函数中的多个可训练参数保持不变。14.根据权利要求12所述的方法,其特征在于,所述第一阶段中输入至所述分段函数的特征的分布情况由所述第一阶段的最后一次迭代后得到的特征的预测平均值和特征的预测标准差表示,所述特征的预测平均值和所述特征的预测标准差是通过滑动平均法确定的。15.根据权利要求14所述的方法,其特征在于,所述特征的预测平均值和所述特征的预测标准差满足以下公式:其中,R
mean_j
表示第j次迭代后得到的所述特征的预测平均值,R
mean_j+1
表示第j+1次迭代后得到的特征的预测平均值,R
std_j
表示第j次迭代后得到的特征的预测标准差,R
std_j+1
表示第j+1次迭代后得到的特征的预测标准差,j为大于或等于0的整数,j=0时,R
mean_0
表示所述
特征的预测平均值的初始值,R
std_0
表示所述特征的预测标准差的初始值,R
mean_0
=0,R
std_0
=0;mean(x)表示所述特征的平均值,std(x)表示所述特征的标准差,a表示R
mean_j
的权重参数,b表示R
std_j
的权重参数。16.根据权利要求14或15所述的方法,其特征在于,所述至少一个分段函数中的右边界RB在所述第二阶段的初始值满足如下公式:RB=R
mean
+c*R
std
;所述至少一个分段函数中的左边界LB在所述第二阶段的初始值满足如下公式:LB=R
mean
‑
c*R
std
;其中,R
mean
表示所述第一阶段的最后一次迭代后得到的特征的预测平均值;R
std
表示所述第一阶段的最后一次迭代后得到的特征的预测标准差,c表示参数。17.根据权利要求11至16中任一项所述的方法,其特征在于,所述至少一个分段函数中的多个可训练参数包括:右边界、左边界、定义域最大的区间上的斜率、定义域最小的区间的斜率或分界点对应的函数值。18.根据权利要求10至17中任一项所述的方法,其特征在于,所述分段函数的分段数为6至18中的任一值。19.一种神经网络模型的训练装置,其特征在于,包括:获取单元,用于获取训练数据;处理单元,用于:基于所述训练数据对神经网络模型进行训练,所述神经网络模型的激活函数包括至少一个分段函数,所述分段函数包括多个可训练参数;在对所述神经网络模型进行训练的训练过程中更新所述至少一个分段函数的多个可训练参数,得到目标神经网络模型。20.根据权利要求19所述的训练装置,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。