用于机器学习模型的渐进学习以优化训练速度的系统和方法技术方案

技术编号:39057620 阅读:21 留言:0更新日期:2023-10-12 19:50
本公开的系统和方法可以包括用于高效机器学习模型训练的计算机实现的方法。该方法可以包括获得针对机器学习模型的多个训练样本。该方法可以包括,对于一个或多个第一训练迭代,至少部分地基于被配置为控制一个或多个正则化技术的相对效果的第一正则化幅度,使用多个训练样本中的一个或多个相应的第一训练样本来训练机器学习模型。该方法可以包括,对于一个或多个第二训练迭代,至少部分地基于大于第一正则化幅度的第二正则化幅度,使用多个训练样本中的一个或多个相应的第二训练样本来训练机器学习模型。训练机器学习模型。训练机器学习模型。

【技术实现步骤摘要】
【国外来华专利技术】用于机器学习模型的渐进学习以优化训练速度的系统和方法
[0001]相关应用
[0002]本申请要求美国临时专利申请号63/145,830的优先权和权益。美国临时专利申请号63/145,830在此全文引入作为参考。


[0003]本公开总体上涉及机器学习模型的渐进学习。更具体地,本公开涉及在机器学习模型的训练期间渐进调整正则化以优化训练速度。

技术介绍

[0004]机器学习的最新进展显著增加了机器学习模型(例如,神经网络等)和用来训练它们的数据的大小和复杂度。例如,最先进的深度学习模型的训练有时可能需要一次使用数千个图形处理单元数周,因此呈现出极其昂贵的计算成本。其他网络可以快速训练,但是伴随着大量参数的昂贵开销。因此,增加训练速度和参数效率的方法将显著增加用于其他任务的计算资源的可用性。

技术实现思路

[0005]本公开的实施例的方面和优点将在以下描述中部分阐述,或者可以从描述中了解,或者可以通过实施例的实践了解。
[0006]本公开的一个示例方面针对一种用于高效机器学习模型训练的计算机实现方法。该方法可以包括由包括一个或多个计算设备的计算系统获得机器学习模型的多个训练样本。该方法可以包括,对于一个或多个第一训练迭代,由计算系统至少部分地基于被配置为控制一个或多个正则化技术的相对效果的第一正则化幅度,使用多个训练样本中的一个或多个相应的第一训练样本来训练机器学习模型。该方法可以包括,对于一个或多个第二训练迭代,由计算系统至少部分地基于大于第一正则化幅度的第二正则化幅度,使用多个训练样本中的一个或多个相应的第二训练样本来训练机器学习模型。
[0007]本公开的另一个示例方面针对一种用于确定具有优化的训练速度的模型的计算系统。计算系统可以包括一个或多个处理器。该计算系统可以包括存储计算机可读指令的一个或多个有形的、非暂时性的计算机可读介质,当由一个或多个处理器执行时,该指令使得一个或多个处理器执行操作。该操作可以包括从定义的模型搜索空间生成第一机器学习模型,其中,定义的模型搜索空间包括一个或多个可搜索参数,其中,第一机器学习模型包括一个或多个可搜索参数的一个或多个第一值。该操作可以包括对第一机器学习模型执行模型训练过程,以获得描述第一训练速度的第一训练数据。该操作可以包括至少部分地基于第一训练数据从定义的模型搜索空间生成第二机器学习模型,其中,第二机器学习模型包括一个或多个可搜索参数的一个或多个第二值,其中,一个或多个第二值中的至少一个不同于一个或多个第一值。该操作可以包括对第二机器学习模型执行模型训练过程,以获得描述第二训练速度的第二训练数据,其中,第二训练速度比第一训练速度更快。
[0008]本公开的另一个示例方面针对存储计算机可读指令的一个或多个有形的、非暂时性的计算机可读介质,当由一个或多个处理器执行时,该指令使得一个或多个处理器执行操作。该操作可以包括从定义的模型搜索空间生成第一机器学习模型,其中,定义的模型搜索空间包括一个或多个可搜索参数,其中,第一机器学习模型包括一个或多个可搜索参数的一个或多个第一值。该操作可以包括对第一机器学习模型执行模型训练过程,以获得描述第一训练速度的第一训练数据。该操作可以包括至少部分地基于第一训练数据从定义的模型搜索空间生成第二机器学习模型,其中,第二机器学习模型包括一个或多个可搜索参数的一个或多个第二值,其中,一个或多个第二值中的至少一个不同于一个或多个第一值,其中,第二机器学习模型包括多个顺序的模型阶段,其中,每个模型阶段包括一个或多个模型层,并且其中,第一模型阶段比多个模型阶段中的第二模型阶段包括更少的模型层。该操作可以包括对第二机器学习模型执行模型训练过程,以获得描述第二训练速度的第二训练数据,其中,第二训练速度比第一训练速度更快。
[0009]另一个示例方面针对一个或多个有形的非暂时性计算机可读介质,该计算机可读介质存储:机器学习模型,包括:多个融合MBConv阶段的第一序列;以及多个MBConv阶段的第二序列,其中,多个MBConv阶段的第二序列跟随多个融合MBConv阶段的第一序列;以及计算机可读指令,当由一个或多个处理器执行时,该计算机可读指令使得一个或多个处理器执行操作,该操作包括:获得模型输入;以及用机器学习模型处理模型输入以生成模型输出。在一些实施方式中,多个融合MBConv阶段由三个融合MBConv阶段组成。在一些实施方式中,三个融合MBConv阶段包括分别具有2、4和4层的第一、第二和第三融合MBConv阶段。在一些实施方式中,三个融合MBConv阶段包括分别具有24、48和64个通道的第一、第二和第三融合MBConv阶段。在一些实施方式中,三个融合MBConv阶段包括第一、第二和第三融合MBConv阶段,每个阶段具有3x3内核。
[0010]本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质、用户接口以及电子设备。
[0011]参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书并构成本说明书一部分的附图示出了本公开的示例实施例,并与描述一起用于解释相关原理。
附图说明
[0012]针对本领域普通技术人员的实施例的详细讨论在参考附图的说明书中阐述,其中:
[0013]图1A描绘了根据本公开的示例实施例的使用渐进正则化执行模型训练的示例计算系统的框图。
[0014]图1B描绘了根据本公开的示例实施例的使用渐进正则化执行模型训练的示例计算设备的框图。
[0015]图1C描绘了根据本公开的示例实施例的以优化的训练速度执行机器学习模型的生成的示例计算设备的框图。
[0016]图2A示出了根据本公开的示例实施例的融合MBConv和MBConv架构。
[0017]图2B描绘了根据本公开的示例实施例的通过架构搜索技术生成的示例机器学习
模型以强调训练速度的框图。
[0018]图3描绘了根据本公开的示例实施例的示例神经架构搜索方法以强调训练速度和准确度的图表。
[0019]图4描绘了以优化的训练速度生成机器学习模型的示例方法的数据流图。
[0020]图5描绘了根据本公开的示例实施例的使用渐进正则化执行模型训练的示例方法的流程图。
[0021]多个附图中重复的附图标记旨在识别各种实施方式中的相同特征。
具体实施方式
[0022]概述
[0023]总体上,本公开指向机器学习模型的渐进学习。更具体地,本公开涉及在机器学习模型的训练期间渐进调整正则化以优化训练速度。作为示例,可以针对机器学习模型(例如,卷积神经网络、深度学习网络等)获得多个训练样本(例如,训练图像、训练数据集等)。对于一个或多个训练迭代,可以基于第一正则化幅度使用这些训练样本中的一个或多个来训练机器学习模型。第一正则化幅度可以被配置为控制一个或多个正则化技术(例如,模型丢弃(dropout)、训练数据增广等)的相对效果。对于一个或多个第二训练迭代,可以至少部分地基于大于第一正则化幅度的第二正本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于高效机器学习模型训练的计算机实现的方法,包括:由包括一个或多个计算设备的计算系统获得机器学习模型的多个训练样本;对于一个或多个第一训练迭代:由计算系统至少部分地基于被配置为控制一个或多个正则化技术的相对效果的第一正则化幅度,使用多个训练样本中的一个或多个相应的第一训练样本来训练机器学习模型;以及对于一个或多个第二训练迭代:由计算系统至少部分地基于大于第一正则化幅度的第二正则化幅度,使用多个训练样本中的一个或多个相应的第二训练样本来训练机器学习模型。2.根据权利要求1所述的计算机实现的方法,其中:获得机器学习模型的多个训练样本还包括由计算系统确定一个或多个第一训练样本的第一样本复杂度;以及其中,在使用一个或多个相应的第二训练样本来训练机器学习模型之前,该方法包括由计算系统确定一个或多个第二训练样本的第二样本复杂度,其中,第二样本复杂度大于第一样本复杂度。3.根据权利要求2所述的计算机实现的方法,其中:所述多个训练样本包括相应的多个训练图像;以及确定一个或多个第二训练样本的第二样本复杂度包括由计算系统调整一个或多个第二训练图像的大小,其中,一个或多个第二训练图像的大小大于一个或多个第一训练图像的大小。4.根据任一前述权利要求所述的计算机实现的方法,其中,在获得所述机器学习模型的多个训练样本之前,该方法包括:由计算系统使用机器学习模型搜索架构生成初始机器学习模型,该初始机器学习模型包括一个或多个相应的参数的一个或多个第一值;由计算系统确定初始机器学习模型的第一训练速度;以及由计算系统使用机器学习模型搜索架构生成机器学习模型,其中,所述机器学习模型包括一个或多个相应的参数的一个或多个第二值,并且其中,一个或多个第二值中的至少一个不同于一个或多个第一值。5.根据权利要求4所述的计算机实现的方法,其中,该方法还包括由计算系统确定机器学习模型的第二训练速度,其中,第二训练速度大于第一训练速度。6.根据权利要求4

5所述的计算机实现的方法,其中,所述机器学习模型包括多个顺序的模型阶段,其中,每个模型阶段包括一个或多个层,并且其中,第一模型阶段比多个模型阶段中的第二模型阶段包括更少的层。7.根据任一前述权利要求所述的计算机实现的方法,其中,所述一个或多个正则化技术包括以下至少一个:由计算系统调整机器学习模型的至少一层的模型通道的数量;或者由计算系统调整多个训练样本中的一个或多个训练样本的至少一个特性。8.根据权利要求1所述的计算机实现的方法,其中,第二正则化幅度至少部分地基于来自一个或多个第一训练迭代的一个或多个相应的训练输出。
9.一种用于确定具有优化的训练速度的模型的计算系统,包括:一个或多个处理器;以及一个或多个有形的、非暂时性的计算机可读介质,该计算机可读介质存储计算机可读指令,当由一个或多个处理器执行时,该指令使得一个或多个处理器执行操作,该操作包括:从定义的模型搜索空间生成第一机器学习模型,其中,所述定义的模型搜索空间包括一个或多个可搜索参数,其中,第一机器学习模型包括一个或多个可搜索参数的一个或多个第一值;对第一机器学习模型执行模型训练过程,以获得描述第一训练速度的第一训练数据;至少部分地基于第一训练数据从定义的模型搜索空间生成第二机器学习模型,其中,第二机器学习模型包括一个或多个可搜索参数的一个或多个第二值,其中,一个或多个第二值中的至少一个不同于一个或多个第一值;以及对第二机器学习模型执行模型训练过程,以获得描述第二训练速度的第二训练数据,其中,第二训练速度比第一训练速度更快。10.根据权利要求9所述的计算系统,其中,所述定义的模型搜索空间的多个模型层包括以下至少一个:卷积层;或者融合卷积层。11.根据权利要求9

10所述的计算系统,其中,第二机器学习模型包括多个顺序的...

【专利技术属性】
技术研发人员:谭明星Q
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1