神经网络模型训练方法、装置及对应设备和交互系统制造方法及图纸

技术编号:34547981 阅读:18 留言:0更新日期:2022-08-17 12:31
公开了一种神经网络模型训练方法、装置及对应设备和交互系统。训练方法包括:构造辅助网络,所述辅助网络获取源模型的输出特征作为输入,并输出与目标模型输出相同维度的辅助网络输出特征;以及将所述辅助网络输出特征与所述目标模型的输出特征分布对齐,以实现从所述源模型到所述目标模型的迁移学习。本发明专利技术的神经网络知识迁移方案尤其适用于在缺乏源数据的异构模型之间进行转换,并通过构建辅助网络来动态地使源特征适应目标分布。进一步地,可以实现多子空间和多距离测量以制定MAS的框架,由此通过减轻总体转移困难来实现有效的迁移学习。在部分源数据可用时,还可以通过构造第二辅助网络来进一步提升迁移效果。第二辅助网络来进一步提升迁移效果。第二辅助网络来进一步提升迁移效果。

【技术实现步骤摘要】
神经网络模型训练方法、装置及对应设备和交互系统


[0001]本公开涉及神经网络领域,尤其涉及一种神经网络模型训练方法、装置及对应设备和交互系统。

技术介绍

[0002]深度神经网络(DNN)在大规模带标签数据的驱动下(即,有监督的训练下)已在各种任务中取得了巨大成功。但是,由人工为数据打上标签的过程既昂贵又费时。同时,大量带标签的数据和经过充分评估的数据集(例如Imagenet)可能具有一般的语义特征。可以进一步利用已有的特征提取器来为相关任务提供指导。为此,提出了迁移学习的概念。迁移学习属于机器学习的一个研究领域,其目的是将知识从已知的源任务转移到新的目标任务。
[0003]虽然现有技术已经针对迁移学习提出了各种方案,但这些方案对源模型和目标模型的结构,以及模型训练数据都有着相对严格的约束,无法适用于更为常见的迁移场景。
[0004]为此,需要一种改进的利用已有模型训练目标模型的方案。

技术实现思路

[0005]本公开要解决的一个技术问题是提供一种改进的利用已有模型训练目标模型的方案。该方案通过建立辅助网络(对应于辅助特征子空间),实现源模型到目标模型(尤其是异构模型之间)的模型能力迁移。
[0006]根据本公开的第一个方面,提供了一种神经网络模型训练方法,包括:构造辅助网络,所述辅助网络获取源模型的输出特征作为输入,并输出与目标模型输出相同维度的辅助网络输出特征;以及将所述辅助网络输出特征与所述目标模型的输出特征分布对齐,以实现从所述源模型到所述目标模型的迁移学习。
>[0007]根据本公开的第二个方面,提供了一种神经网络模型预测方法,包括:获取待处理信息;以及将待处理信息送入如第一方面所述方法得到的目标模型,以获取预测信息。
[0008]根据本公开的第三个方面,提供了一种神经网络模型训练装置,包括:辅助网络构造单元,用于构造辅助网络,所述辅助网络获取源模型的输出特征作为输入,并输出与目标模型输出相同维度的辅助网络输出特征;以及特征分布对齐单元,用于将所述辅助网络输出特征与所述目标模型的输出特征分布对齐,以实现从所述源模型到所述目标模型的迁移学习。
[0009]根据本公开的第四个方面,提供了一种智能设备,包括:获取模块,用于获取待处理信息;以及联网模块,用于上传获取的待处理信息,所述待处理信息被送入如第一方面所述得到的目标模型,以获取所述目标模型的预测结果。
[0010]根据本公开的第五个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一和/或第二方面所述的方法。
[0011]根据本公开的第六个方面,提供了一种非暂时性机器可读存储介质,其上存储有
可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一和/或第二方面所述的方法。
[0012]本专利技术的神经网络知识迁移方案尤其适用于在缺乏源数据的异构模型之间进行转换,并且通过构建辅助网络来动态地使源特征适应目标分布。进一步地,可以进行多个子空间和多距离测量以制定MAS的框架,MAS可以通过减轻总体转移困难来实现有效的迁移学习。在部分源数据可用时,还可以通过构造第二辅助网络来提升迁移效果。
附图说明
[0013]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0014]图1示出了现有迁移学习与异构模型迁移学习(HMTL)的差异。
[0015]图2示出了本专利技术针对HMTL进行知识迁移的基本操作原理。
[0016]图3示出了根据本专利技术一个实施例的神经网络模型训练方法。
[0017]图4A

B示出了根据本专利技术使用辅助网络在异构网络间进行知识迁移的例子。
[0018]图5A

B示出了基于多个辅助子空间的MAS和M2AS的例子。
[0019]图6示出了部分源数据可用时使用双辅助网络的例子。
[0020]图7示出了根据本专利技术的输出特征分布可视化的例子。
[0021]图8示出了根据本专利技术一个实施例的神经网络模型训练装置的组成示意图。
[0022]图9示出了根据本专利技术一个实施例可用于实现上述神经网络模型训练和预测方法的计算设备的结构示意图。
具体实施方式
[0023]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0024]深度神经网络(DNN)在大规模带标签数据的驱动下(即,有监督的训练下)已在各种任务中取得了巨大成功。但是,由人工为数据打上标签的过程既昂贵又费时。同时,大量带标签的数据和经过充分评估的数据集(例如Imagenet)可能具有一般的语义特征。可以进一步利用已有的特征提取器来为相关任务提供指导。为此,提出了迁移学习的概念。迁移学习属于机器学习的一个研究领域,其目的是将知识从已知的源任务转移到新的目标任务。
[0025]在现实世界中,迁移学习可能会面临更具挑战性和实际性的问题。一方面,考虑到部署和计算消耗问题,我们时常需要将知识从一个大模型转移到一个较小的模型中。模型要求表明源模型和目标模型很可能是异构的。在异构模型下,迁移学习被广泛接受为异构迁移学习(HTL)。另一方面,由于数据隐私问题,源数据可能不可用。在这种情况下,我们只能利用源数据学习的模型。而在无法获得的源数据和异构网络结构的情况下,上述两个问题都将同时发生。在此,可以将该问题称为异构模型迁移学习(HMTL)。
[0026]图1示出了现有迁移学习与异构模型迁移学习(HMTL)的差异。如图所示,在相对简
单的迁移学习场景中(如图1左上所示),源数据和目标数据都可用,并且目标模型G
T
可以与源模型G
S
结构相同或类似。此时,可以通过(数据)域适应,例如,使用目标数据对源模型进行微调(finetune)来实现迁移学习。进一步地,如图1右上的虚线“源数据”框所示,当源数据因涉及敏感数据等原因不可用时,则可以通过使用源模型G
S
的参数进行参数初始化(Init.),来利用已有的知识加速对目标模型G
T
的训练。
[0027]考虑到大源模型在推理时需要大量内存并且很耗时,因此在实践中需要将知识转移到小模型中。当任务之间的网络结构不同时,迁移学习就变成了异构迁移学习(HTL)。为此,针对遇到的两个问题,即源数据不可用和异构模型,需要转向异构模型迁移学习(HMTL)。
[0028]在图1左下示出的异构模型迁移学习(HMTL)中,由于源数据不可用,并且目标模型G
T
可以源本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型训练方法,包括:构造辅助网络,所述辅助网络获取源模型的输出特征作为输入,并输出与目标模型输出相同维度的辅助网络输出特征;以及将所述辅助网络输出特征与所述目标模型的输出特征分布对齐,以实现从所述源模型到所述目标模型的迁移学习。2.如权利要求1所述的方法,其中,将所述辅助网络输出特征与所述目标模型的输出特征分布对齐包括:计算所述辅助网络输出特征与所述目标模型的输出特征的对齐损失函数;以及基于所述对齐损失函数,调整所述辅助网络的参数。3.如权利要求2所述的方法,还包括:计算所述辅助网络输出特征与所述目标模型的输出特征的匹配损失函数;以及基于所述匹配损失函数,调整所述目标模型的参数。4.如权利要求3所述的方法,还包括:计算所述目标模型的输出特征在目标分类器分类后得到的分类结果与目标数据标签的分类损失函数;以及根据所述分类损失函数,调整所述目标模型和所述目标分类器的参数。5.如权利要求4所述的方法,其中,在基于所述对齐损失函数调整所述辅助网络的参数之后,再固定所述辅助网络参数,进行基于所述匹配损失函数和所述分类损失函数的所述目标模型和所述目标分类器的参数调整。6.如权利要求1所述的方法,包括:使用目标数据分别输入所述源模型和所述目标模型,以各自得到基于目标数据获取的所述源模型的输出特征和所述目标模型的输出特征,其中所述源模型的输出特征作为所述辅助网络的输入。7.如权利要求6所述的方法,还包括:构造第二辅助网络;使用部分源数据分别输入所述源模型和所述目标模型,以各自得到基于部分源数据获取的所述源模型的源数据输出特征和所述目标模型的源数据输出特征,其中所述源模型的源数据输出特征作为所述第二辅助网络的输入;计算所述第二辅助网络输出特征与所述目标模型的源数据输出特征的第二对齐损失函数;以及基于所述第二对齐损失函数,调整所述辅助网络的参数。8.如权利要求7所述的方法,还包括:计算所述第二辅助网络输出特征与所述目标模型的源数据输出特征的匹配损失函数;以及基于所述匹配损失函数,调整所述目标模型的参数。9.如权利要求1所述的方法,还包括:将所述辅助网络输出特征分别与所述目标模型的多个层输出特征分布对齐,以实现从所述源模型到所述目标模型的迁移学习。10.如权利要求9所述的方法,还包括:
将所述辅助网络输出特征和所述源模型的多个层输出特征分别与所述目标模型的多个层输出特征分布对齐,以实现从所述源模型到所述目标模型的迁移学习。11.一种神经网络模型预测方法,包括:获取待处理信息;以及将待处理信息送入如权利要求1

10所述方法得到的目标模型,以获取预测信息。12.如权利要求11所述的方法,其中,所述待处理信息是待分类信息,所述...

【专利技术属性】
技术研发人员:陈泽晗金炫
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1