一种模型训练方法及相关设备技术

技术编号:40064359 阅读:18 留言:0更新日期:2024-01-16 23:11
本申请公开了一种模型训练方法,可以应用于多层感知机、基于注意力的神经网络等。该方法包括:获取带有标签值的训练数据;以训练数据为输入,以损失函数的值小于阈值为目标对神经网络进行训练以得到第一模型;神经网络包括多个网络层以及与多个网络层中至少一个网络层相连的蒸馏层,多个网络层中的每个网络层用于输出空间特征与通道特征。损失函数包括第二损失函数,第二损失函数用于指示蒸馏层的第一输出与教师网络的第二输出之间的差异,第一输出由空间特征与通道特征处理得到。蒸馏层的输出由空间特征与通道特征处理得到,增加了空间特征与通道特征之间的融合,可以提升由第二损失函数训练得到的第一模型在推理过程中的准确性。

【技术实现步骤摘要】

本申请涉及人工智能领域,尤其涉及一种模型训练方法及相关设备


技术介绍

1、人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

2、目前,多层感知器(multi-layer perceptron,mlp)-mixer提出了一种仅应用多层感知器(mlps)来设计的视觉模型,并成功达到了最新水平的精度。然而,mlp-mixer的高性能在很大程度上依靠在大规模私有数据集上的大量预训练,这极大的增加了采集数据和进行训练的成本。

3、因此,如何在训练过程中减少mlp对大规模数据集的依赖是亟待解决的技术问题。


技术实现思路

1、本申请提供了一种模本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述以所述训练数据为输入,以损失函数的值小于阈值为目标对神经网络进行训练以得到第一模型,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述第一输出由所述空间特征与所述通道特征拼接得到。

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述神经网络还包括归一化层,所述空间特征的表达式如下:

5.根据权利要求1至4中任一项所述的方法,其特征在于,所述神经网络还包括归一化层,所述通道特征的表达式如下:

6.根据权利要求1至5中任一...

【技术特征摘要】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述以所述训练数据为输入,以损失函数的值小于阈值为目标对神经网络进行训练以得到第一模型,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述第一输出由所述空间特征与所述通道特征拼接得到。

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述神经网络还包括归一化层,所述空间特征的表达式如下:

5.根据权利要求1至4中任一项所述的方法,其特征在于,所述神经网络还包括归一化层,所述通道特征的表达式如下:

6.根据权利要求1至5中任一项所述的方法,其特征在于,所述神经网络包括:多层感知器mlp,和/或基于注意力的神经网络。

7.一种训练设备,其特征在于,所述训练设备包括:

8.根据权利要求7所述的训练设备,其特征在于,所述训练单元,具体用于分割所述训练数据以得到多个子训练数据;

9.根据权利要求7或8所述的训练设备,其特征在于,所述第一输出由...

【专利技术属性】
技术研发人员:陈醒濠李言蹊唐业辉王云鹤
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1