网络模型训练方法和设备技术

技术编号:37263665 阅读:22 留言:0更新日期:2023-04-20 23:36
本发明专利技术实施例涉及机器学习领域,尤其涉及一种网络模型训练方法和设备。其中,上述网络模型训练方法包括:采用大样本数据集对卷积神经网络CNN进行预训练,得到CNN模型,所述CNN预训练模型包括n个子网络,所述n个子网络包括全连接子网络;利用受限玻尔兹曼机RBM子网络替换所述CNN预训练模型中的所述全连接子网络,得到教师模型;所述CNN模型作为学生模型与所述教师模型,组成迁移网络模型;采用小样本数据集对所述迁移网络模型进行训练,以确定所述迁移网络模型中所述RBM子网络的模型参数。本发明专利技术实施例中,通过基于受限波尔兹曼机的迁移学习方法,有效实现小样本网络模型的训练。有效实现小样本网络模型的训练。有效实现小样本网络模型的训练。

【技术实现步骤摘要】
网络模型训练方法和设备


[0001]本专利技术实施例涉及机器学习领域,尤其涉及一种网络模型训练方法和设备。

技术介绍

[0002]随着神经网络和深度学习的快速发展,基于大规模标签数据训练的神经网络学习已经成为了机器学习成功的关键。而在诸如医疗、军事和金融等领域内,由于隐私、安全性或数据的标签高成本等一系列因素,没有条件获得大量的带标签的训练样本,进而无法进行深度的网络学习。
[0003]因此,如何使得一个机器学习系统能够从非常少量的样本中高效地进行学习和推广其认知能力,成为目前亟待解决的技术问题。

技术实现思路

[0004]本专利技术实施例提供了一种网络模型训练方法和设备,通过基于受限波尔兹曼机(Restricted Boltzmann Machine,RBM)的迁移学习方法,有效实现小样本网络模型的训练。
[0005]第一方面,本专利技术实施例提供一种网络模型训练方法,包括:
[0006]采用大样本数据集对卷积神经网络(Convolutional Neural Networks,CNN)进行本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网络模型训练方法,其特征在于,包括:采用大样本数据集对卷积神经网络CNN进行预训练,得到CNN模型,所述CNN预训练模型包括n个子网络,所述n个子网络包括全连接子网络;利用受限玻尔兹曼机RBM子网络替换所述CNN预训练模型中的所述全连接子网络,得到教师模型;所述CNN模型作为学生模型与所述教师模型,组成迁移网络模型;采用小样本数据集对所述迁移网络模型进行训练,以确定所述迁移网络模型中所述RBM子网络的模型参数。2.根据权利要求1所述的方法,其特征在于,采用大样本数据集对卷积神经网络CNN进行预训练,包括采用前向传播算法学习各个子网络的模型参数,其中:利用第l个子网络的输出特征以及第l+1个子网络的模型参数,确定第l+1个子网络的隐藏神经元T
(l+1)
,l的取值分别为1、2
……
n

1;采用快速批量归一化FBN算法对所述T
(l+1)
进行归一化,得到归一化后的隐藏神经元FBN(T
(l+1)
);根据FBN(T
(l+1)
),确定第l+1个子网络的输出特征并输入至第l+2个子网络,直至所述CNN模型输出结果。3.根据权利要求2所述的方法,其特征在于,采用大样本数据集对卷积神经网络CNN进行预训练,包括采用反向传播算法调整每个子网络的模型参数,其中:采用自适应性矩估计Adam随机梯度下降算法,利用衰减常数β1、β2分别计算参数梯度第t次迭代的一阶矩估计值和二阶矩估计值;对所述一阶矩估计值和所述二阶矩估计值进行偏差修正,获得第t次迭代的无偏一阶矩估计值和无偏二阶矩估计值;通过第t次迭代的无偏一阶矩估计值和所述无偏二阶矩估计值对每个子网络的CNN网络参数进行更新,使所述输出特征与目标输出特征的误差函数达到预设范围内,以确定所述CNN模型的各个子网络层的所述CNN网络参数。4.根据权利要求1所述方法,其特征在于,所述RBM子网络包括第一RBM子层和第二RBM子层,所述全连接层包括第一全连接子层和第二全连接子层;所述利用受限玻尔兹曼机RBM子网络替换所述CNN预训练模型中的所述全连接子网络,包括:使用所述第一RBM子层和所述第二RBM子层分别替换所述第一全连接层和所述第二全连接层,得到所述教师模型。5.根据权利要求1所述的方法,其特征在于,所述采用小样本数据集对所述迁移网...

【专利技术属性】
技术研发人员:倪茂王绍颖周婷崔芳
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1