用于机器学习模型的渐进学习以优化训练速度的系统和方法技术方案

技术编号：39057620 阅读：21 留言：0更新日期：2023-10-12 19:50

本公开的系统和方法可以包括用于高效机器学习模型训练的计算机实现的方法。该方法可以包括获得针对机器学习模型的多个训练样本。该方法可以包括，对于一个或多个第一训练迭代，至少部分地基于被配置为控制一个或多个正则化技术的相对效果的第一正则化幅度，使用多个训练样本中的一个或多个相应的第一训练样本来训练机器学习模型。该方法可以包括，对于一个或多个第二训练迭代，至少部分地基于大于第一正则化幅度的第二正则化幅度，使用多个训练样本中的一个或多个相应的第二训练样本来训练机器学习模型。训练机器学习模型。训练机器学习模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于机器学习模型的渐进学习以优化训练速度的系统和方法
[0001]相关应用
[0002]本申请要求美国临时专利申请号63/145,830的优先权和权益。美国临时专利申请号63/145,830在此全文引入作为参考。

[0003]本公开总体上涉及机器学习模型的渐进学习。更具体地，本公开涉及在机器学习模型的训练期间渐进调整正则化以优化训练速度。

技术介绍

[0004]机器学习的最新进展显著增加了机器学习模型(例如，神经网络等)和用来训练它们的数据的大小和复杂度。例如，最先进的深度学习模型的训练有时可能需要一次使用数千个图形处理单元数周，因此呈现出极其昂贵的计算成本。其他网络可以快速训练，但是伴随着大量参数的昂贵开销。因此，增加训练速度和参数效率的方法将显著增加用于其他任务的计算资源的可用性。

技术实现思路

[0005]本公开的实施例的方面和优点将在以下描述中部分阐述，或者可以从描述中了解，或者可以通过实施例的实践了解。
[0006]本公开的一个示例方面针对一种用于高效机器学习模型训练的计算机实现方法。该方法可以包括由包括一个或多个计算设备的计算系统获得机器学习模型的多个训练样本。该方法可以包括，对于一个或多个第一训练迭代，由计算系统至少部分地基于被配置为控制一个或多个正则化技术的相对效果的第一正则化幅度，使用多个训练样本中的一个或多个相应的第一训练样本来训练机器学习模型。该方法可以包括，对于一个或多个第二训练迭代，由计算系统至少部分地基于大于第一正则化幅度的第二正则化幅度，使用多个训...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于高效机器学习模型训练的计算机实现的方法，包括：由包括一个或多个计算设备的计算系统获得机器学习模型的多个训练样本；对于一个或多个第一训练迭代：由计算系统至少部分地基于被配置为控制一个或多个正则化技术的相对效果的第一正则化幅度，使用多个训练样本中的一个或多个相应的第一训练样本来训练机器学习模型；以及对于一个或多个第二训练迭代：由计算系统至少部分地基于大于第一正则化幅度的第二正则化幅度，使用多个训练样本中的一个或多个相应的第二训练样本来训练机器学习模型。2.根据权利要求1所述的计算机实现的方法，其中：获得机器学习模型的多个训练样本还包括由计算系统确定一个或多个第一训练样本的第一样本复杂度；以及其中，在使用一个或多个相应的第二训练样本来训练机器学习模型之前，该方法包括由计算系统确定一个或多个第二训练样本的第二样本复杂度，其中，第二样本复杂度大于第一样本复杂度。3.根据权利要求2所述的计算机实现的方法，其中：所述多个训练样本包括相应的多个训练图像；以及确定一个或多个第二训练样本的第二样本复杂度包括由计算系统调整一个或多个第二训练图像的大小，其中，一个或多个第二训练图像的大小大于一个或多个第一训练图像的大小。4.根据任一前述权利要求所述的计算机实现的方法，其中，在获得所述机器学习模型的多个训练样本之前，该方法包括：由计算系统使用机器学习模型搜索架构生成初始机器学习模型，该初始机器学习模型包括一个或多个相应的参数的一个或多个第一值；由计算系统确定初始机器学习模型的第一训练速度；以及由计算系统使用机器学习模型搜索架构生成机器学习模型，其中，所述机器学习模型包括一个或多个相应的参数的一个或多个第二值，并且其中，一个或多个第二值中的至少一个不同于一个或多个第一值。5.根据权利要求4所述的计算机实现的方法，其中，该方法还包括由计算系统确定机器学习模型的第二训练速度，其中，第二训练速度大于第一训练速度。6.根据权利要求4
‑
5所述的计算机实现的方法，其中，所述机器学习模型包括多个顺序的模型阶段，其中，每个模型阶段包括一个或多个层，并且其中，第一模型阶段比多个模型阶段中的第二模型阶段包括更少的层。7.根据任一前述权利要求所述的计算机实现的方法，其中，所述一个或多个正则化技术包括以下至少一个：由计算系统调整机器学习模型的至少一层的模型通道的数量；或者由计算系统调整多个训练样本中的一个或多个训练样本的至少一个特性。8.根据权利要求1所述的计算机实现的方法，其中，第二正则化幅度至少部分地基于来自一个或多个第一训练迭代的一个或多个相应的训练输出。
9.一种用于确定具有优化的训练速度的模型的计算系统，包括：一个或多个处理器；以及一个或多个有形的、非暂时性的计算机可读介质，该计算机可读介质存储计算机可读指令，当由一个或多个处理器执行时，该指令使得一个或多个处理器执行操作，该操作包括：从定义的模型搜索空间生成第一机器学习模型，其中，所述定义的模型搜索空间包括一个或多个可搜索参数，其中，第一机器学习模型包括一个或多个可搜索参数的一个或多个第一值；对第一机器学习模型执行模型训练过程，以获得描述第一训练速度的第一训练数据；至少部分地基于第一训练数据从定义的模型搜索空间生成第二机器学习模型，其中，第二机器学习模型包括一个或多个可搜索参数的一个或多个第二值，其中，一个或多个第二值中的至少一个不同于一个或多个第一值；以及对第二机器学习模型执行模型训练过程，以获得描述第二训练速度的第二训练数据，其中，第二训练速度比第一训练速度更快。10.根据权利要求9所述的计算系统，其中，所述定义的模型搜索空间的多个模型层包括以下至少一个：卷积层；或者融合卷积层。11.根据权利要求9
‑
10所述的计算系统，其中，第二机器学习模型包括多个顺序的...

【专利技术属性】
技术研发人员：谭明星，Q，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人