用于初始化神经网络的方法和系统技术方案

技术编号:31373444 阅读:20 留言:0更新日期:2021-12-15 11:01
公开用于初始化预训练神经网络的方法和系统,该方法包括:获得具有输出层的预训练神经网络;修改预训练神经网络的输出层,其中,该修改包括根据使输出类概率的熵最大化的函数更新输出层的每个权重,其中,该函数取决于控制输出类概率的误差比例的参数,诸如参数减小输出类概率的方差;并且提供初始化的预训练神经网络。经网络。经网络。

【技术实现步骤摘要】
【国外来华专利技术】用于初始化神经网络的方法和系统
[0001]相关申请
[0002]本申请要求于2019年5月7日提交的美国临时申请第62/844,472号的优先权,该申请的内容全部并入本文。


[0003]本专利技术的一个或多个实施例涉及人工智能。更准确地,本专利技术的一个或多个实施例涉及用于初始化神经网络的方法和系统。

技术介绍

[0004]人工神经网络(ANN)在学习复杂任务方面已经表现出强大的能力,并且已经成为解决机器学习社区中的许多问题的第一竞争者。然而,大的训练数据集是这些网络实现良好性能的关键先决条件。该限制已经在神经网络研究中开辟了新篇章,其试图利用有限的数据量使学习成为可能。到目前为止,处理这种障碍最广泛使用的技术之一是基于从已经训练的模型中获得的先验知识初始化参数。
[0005]为了使预训练模型适应新任务,通常将任务特定的、无关的且随机的参数移植到一组有意义的表示,从而产生异构模型[1,6,17,19]。将这些不关联的模块一起训练可能会污染真正学习到的表示,并且显著降低最大可迁移知识。目前的微调技术减慢训练过程以补偿这种本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于初始化预训练神经网络的方法,所述方法包括:获得具有输出层的预训练神经网络;修改所述预训练神经网络的所述输出层,其中,所述修改包括根据使输出类概率的熵最大化的函数更新所述输出层的每个权重,其中,所述函数取决于控制所述输出类概率的误差比例的参数,诸如所述参数减小所述输出类概率的方差;并且提供初始化的预训练神经网络。2.根据权利要求1所述的方法,其中,修改所述预训练神经网络的所述输出层进一步包括在更新每个权重之前对刚好位于所述输出层之前的特征进行z归一化。3.根据权利要求1所述的方法,其中,所述预训练神经网络在所述输出层中使用softmax logit。4.一种用于训练预训练神经网络的方法,所述方法包括:获得要训练的所述预训练神经网络;获得适用于所述训练的数据集;使用根据权利要求1至3中任一项所述的方法初始化所述预训练神经网络;使用所获得的数据集训练初始化的预训练神经网络;并且提供训练的神经网络。5.根据权利要求4所述的方法,其中,所述训练是联合学习方法。6.根据权利要求4所述的方法,其中,所述训练是元学习方法。7.根据权利要求4所述的方法,其中,所述训练是分布式机器学习方法。8.根据权利要求4所述的方法,其中,所述训练是使用所述预训练神经网络作为种子的网络架构搜索。9.根据权利要求4至8中任一项所述的方法,其中,所述预训练神经网络包括生成的对抗网络,其中,在鉴别器处执行使用根据权利要求1所述的方法初始化所述预训练神经网络。10.一种用于通过联合学习训练神经网络的方法,所述方法包括:获得要训练的共享神经网络;获得适用于所述联合学习的至少两个数据集,所述至少两个数据集中的每一个数据集用于训练对应的分散式训练单元;每个分散式训练单元使用对应的数据集执行第一轮训练;对于后续的每一轮训练:每个分散式训练单元使用根据权利要求1至3中任一项所述的方法初始化所述共享神经网络;每个分散式训练单元使用所述对应的数据集训练初始化的共享神经网络;将来自所有分散式训练单元的学习全局地联合为所产生的全局共享神经网络;并且将对应的全局共享神经网络作为新的共享神经网络提供到分散式训练单元,直到所述全局共享神经网络收敛到良好的全局模型;并且提供训练的共享神经网络。11.一种用于使用爬虫元学习方法训练神经网络的方法,所述方法包括:获得要训练的神经网络;
获得适用于所述爬虫元学习方法的数据集;对于所述爬虫元学习方法的每次迭代:对于...

【专利技术属性】
技术研发人员:法希德
申请(专利权)人:映佳控制公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1