本发明专利技术公开了一种小样本在线训练方法、装置及储存介质,属于计算、推算或计数技术领域。所述方法包括:通过数据集对神经网络进行训练,获得权重参数,将权重参数作为预训练模型的原训练参数;采集规定预设量的样本并标记;将标记的样本和原训练参数输入至预训练模型进行训练,以更新原训练参数。通过采用预训练模型对原训练参数进行训练更新,解决了现有技术中优化算法受限于存储、功耗和计算能力的影响,难以搭载到移动设备和嵌入式平台上使用,且少量的样本易导致过拟合的情况,同时,在对新样本进行在线训练的过程中,会造成对旧样本的灾难性遗忘的技术问题。的灾难性遗忘的技术问题。的灾难性遗忘的技术问题。
【技术实现步骤摘要】
一种小样本在线训练方法、装置及储存介质
[0001]本专利技术涉及一种小样本在线训练方法、装置及储存介质,属于计算、推算或计数
技术介绍
[0002]近年来,深度神经网络在语音识别,图像识别和医疗应用等领域已经取得了前所未有的成功,其中卷积神经网络在视觉识别领域有着广泛的应用,如手写数字识别、字符识别、人脸检测、跨媒体搜索、人脸识别、面部表情分析、汽车检测。针对神经网络的训练的参数优化过程,人们提出了不同的学习算法来对神经网络进行训练,其中使用最多的是基于梯度的算法,即梯度下降算法。然而,在硬件上实现深度神经网络的在线训练一直是研究者的难题。
[0003]首先,当前主流的优化算法具有复杂的计算度和大量的训练参数,受限于存储、功耗和计算能力,难以搭载在到移动设备和嵌入式平台上使用。其次,在实际应用的场景下,往往难以收集到比较多的样本,而数据过少会对模型训练造成负面影响,例如,由于少量训练数据难以提供足够的信息供模型学习,导致模型可能无法收敛;模型把训练数据的完全不相关信息学习进去,使模型过拟合训练数据;容易陷入局部最优值等。再次,在不断对新样本进行在线训练的过程中,会造成对旧样本的灾难性遗忘。
技术实现思路
[0004]本专利技术的目的在于克服现有技术中的不足,提供一种小样本在线训练方法、装置及储存介质,解决现有技术中优化算法受限于存储、功耗和计算能力的影响,难以搭载到移动设备和嵌入式平台上使用,且少量的样本易导致过拟合的情况,同时,在对新样本进行在线训练的过程中,会造成对旧样本的灾难性遗忘的技术问题。
[0005]为达到上述目的,本专利技术是采用下述技术方案实现的:
[0006]第一方面,本专利技术提供了一种小样本在线训练方法,所述方法包括以下步骤:
[0007]通过数据集对神经网络进行训练,获得权重参数,将权重参数作为预训练模型的原训练参数;
[0008]采集规定预设量的样本并标记;
[0009]将标记的样本和原训练参数输入至预训练模型进行训练,以更新原训练参数;
[0010]所述预训练模型基于在线训练神经网络得到,所述在线训练神经网络包括卷积层、区间批量归一化模块、RELU激活函数、块浮点量化模块、最大池化层、全连接层、Softmax分类器以及随机权重平均模块;
[0011]将标记的样本和原训练参数中的卷积层训练参数输入所述卷积层进行卷积计算,得到输出特征图,并将输出特征图输入所述区间批量归一化模块;
[0012]所述区间批量归一化模块对输出特征图进行批量归一化,并将批量归一化结果输入所述RELU激活函数;
[0013]所述RELU激活函数对批量归一化结果进行激活,并将激活后的结果输入所述块浮点量化模块;
[0014]所述块浮点量化模块对激活后的结果进行低精度量化,并将低精度量化后的结果输入所述最大池化层;
[0015]所述最大池化层将低精度量化后的结果进行最大池化得到低精度前向特征图,并将低精度前向特征图输入所述全连接层;
[0016]所述全连接层对低精度前向特征图进行计算,得到输出向量,并将输出向量输入Softmax分类器;
[0017]所述Softmax分类器对输出向量进行计算,得到预测结果;
[0018]将预测结果与标记的样本进行误差计算,得到对应误差;
[0019]将对应误差反向输入预训练模型中,得到全连接层与卷积层的相对误差;
[0020]将全连接层的相对误差和卷积层的相对误差分别与低精度前向特征图和输出特征进行卷积计算得到权重梯度,通过权重梯度对原训练参数进行迭代计算,得到新训练参数,并将新训练参数输入随机权重平均模块。
[0021]所述随机权重平均模块对新训练参数和原训练参数进行滑动平均计算得到最终训练参数;
[0022]计算最终训练参数的损失,并对损失进行判断。
[0023]进一步的,所述区间批量归一化模块对输出特征图进行批量归一化的计算公式如下:
[0024][0025]其中:x
(d)
为输出特征,μ
(d)
为输出特征平均值,为批量归一化结果,为输出特征最大值,为输出特征最小值。
[0026]进一步的,权重梯度对原训练参数进行迭代计算,得到新训练参数的计算公式如下:
[0027][0028][0029]W
t+1
=W
t
‑
η
t
G
t
[0030]其中:l(W
t
)带入全连接层与卷积层的相对误差E
C
和E
F
,λψ(W
t
)为正则化因子,λ是正则化系数,W
t
为原训练参数包含W和w,η
t
为学习率,G
t
为权重梯度包含和W
t+1
为新训练参数,t为迭代次数。
[0031]进一步的,随机权重平均模块对新训练参数和原训练参数进行滑动平均计算的计算公式如下:
[0032][0033]其中:g为采集样本的规定预设量,W
t
为原训练参数,W
t+1
为迭代后的训练参数,为最终训练参数。
[0034]进一步的,对损失进行判断的方法包括:
[0035]判断损失是否小于0.1;
[0036]若判断结果为是,则输出最终训练参数并运用;
[0037]若判断结果为否,则将最终训练参数和标记的样本输入至预训练模型中进行训练迭代。
[0038]进一步的,采集样本的规定预设量为32。
[0039]第二方面,本专利技术提供一种小样本在线训练装置,包括存储器和处理器;
[0040]所述存储器,用于存储程序;
[0041]所述处理器,用于执行所述程序,实现第一方面所述的小样本在线训练方法的各个步骤。
[0042]第三方面,本专利技术提供一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现第一方面所述的小样本在线训练方法的各个步骤。
[0043]与现有技术相比,本专利技术所达到的有益效果:
[0044]1.本专利技术通过区间批量归一化模块对输出特征图进行批量归一化,在大大减小计算量的同时,使得训练速度加快,达到收敛所需要的迭代次数更少,在线训练计算的过程更加符合硬件的运算特性。
[0045]2.本专利技术通过权重梯度对原训练参数进行迭代计算,减少数据存储所消耗的资源,在一定程度上降低了计算复杂度,为在线训练提供可扩展性、内存节省、便携性和能效等优点,同时保持了较高的训练精度,为网络模型在移动设备和嵌入式平台上进行部署提供了便利。
[0046]3.本专利技术通过随机权重平均模块对新训练参数和原训练参数进行滑动平均计算能够得到更加全局化的训练参数结果,提高预训练模型的泛化性,避免预训练模型陷入局部最优值,防止样本量过少导致的预训练模型过拟合新样本问题,解决了本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种小样本在线训练方法,其特征在于,包括如下步骤:通过数据集对神经网络进行训练,获得权重参数,将权重参数作为预训练模型的原训练参数;采集规定预设量的样本并标记;将标记的样本和原训练参数输入至预训练模型进行训练,以更新原训练参数;所述预训练模型基于在线训练神经网络得到,所述在线训练神经网络包括卷积层、区间批量归一化模块、RELU激活函数、块浮点量化模块、最大池化层、全连接层、Softmax分类器以及随机权重平均模块;将标记的样本和原训练参数中的卷积层训练参数输入所述卷积层进行卷积计算,得到输出特征图,并将输出特征图输入所述区间批量归一化模块;所述区间批量归一化模块对输出特征图进行批量归一化,并将批量归一化结果输入所述RELU激活函数;所述RELU激活函数对批量归一化结果进行激活,并将激活后的结果输入所述块浮点量化模块;所述块浮点量化模块对激活后的结果进行低精度量化,并将低精度量化后的结果输入所述最大池化层;所述最大池化层将低精度量化后的结果进行最大池化得到低精度前向特征图,并将低精度前向特征图输入所述全连接层;所述全连接层对低精度前向特征图进行计算,得到输出向量,并将输出向量输入Softmax分类器;所述Softmax分类器对输出向量进行计算,得到预测结果;将预测结果与标记的样本进行误差计算,得到对应误差;将对应误差反向输入预训练模型中,得到全连接层与卷积层的相对误差;将全连接层的相对误差和卷积层的相对误差分别与低精度前向特征图和输出特征进行卷积计算得到权重梯度,通过权重梯度对原训练参数进行迭代计算,得到新训练参数,并将新训练参数输入随机权重平均模块。所述随机权重平均模块对新训练参数和原训练参数进行滑动平均计算得到最终训练参数;计算最终训练参数的损失,并对损失进行判断。2.根据权利要求1所述的小样本在线训练方法,其特征在于,所述区间批量归一化模块对输出特征图进行批量归一化的计算公式如下:其中:x
(d)
为输出特征,μ
(d)
为输出特征平均值,为批量归一化结果,为输出特征最大值,...
【专利技术属性】
技术研发人员:王汉霖,疏建,梁天柱,
申请(专利权)人:昆山市工业技术研究院有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。