【技术实现步骤摘要】
使用数据回声减少机器学习训练系统的空闲的系统和方法
本公开通常涉及机器学习模型的训练。更具体地,本公开涉及一种用于减少机器学习训练系统中的空闲的系统和方法。
技术介绍
机器学习模型的训练通常可以分为数据预处理步骤和使用处理数据的后续训练步骤。数据预处理步骤通常可能比后续训练步骤花费更长的时间。例如,已经开发出可以大大提高并行处理速度的专用硬件,这在训练步骤中很常见。在各种情况下,这样的专用硬件可以被称为“加速”硬件、“加速器”、专用集成电路(ASIC)和/或其他术语。示例专用硬件包括图形处理单元(GPU)、张量处理单元(TPU)和/或类似物。由于这种专用硬件(和其他因素),当预处理的训练数据间歇性变得可用时,训练步骤的执行可以开始和停止。因此,在本领域中将欢迎用于减少机器学习训练系统中的空闲的系统和方法。
技术实现思路
本公开的实施例的方面和优点将在以下描述中部分地阐述,或者可以从描述中获悉,或者可以通过实施例的实施而获知。本公开的一个示例方面涉及一种用于减少机器学习训练系统中的空闲的方法,可以包括:由一 ...
【技术保护点】
1.一种用于减少机器学习训练系统中的空闲的方法,所述方法包括:/n由一个或多个计算设备执行第一训练操作集合,以访问并准备在训练数据集合中包括的多个训练示例;以及/n由一个或多个计算设备执行第二训练操作集合,以至少部分地基于训练数据集合来训练机器学习模型;/n其中,由一个或多个计算设备执行第二训练操作集合包括:由一个或多个计算设备执行一个或多个重复迭代,其中对在训练数据集合中包括的多个训练示例中的至少一个训练示例重复执行第二训练操作集合的至少一部分,使得至少一个训练示例被重复用于训练机器学习模型;以及/n其中,一个或多个重复迭代的速率至少部分基于回声因子,所述回声因子至少部分 ...
【技术特征摘要】
20190523 US 62/852,0561.一种用于减少机器学习训练系统中的空闲的方法,所述方法包括:
由一个或多个计算设备执行第一训练操作集合,以访问并准备在训练数据集合中包括的多个训练示例;以及
由一个或多个计算设备执行第二训练操作集合,以至少部分地基于训练数据集合来训练机器学习模型;
其中,由一个或多个计算设备执行第二训练操作集合包括:由一个或多个计算设备执行一个或多个重复迭代,其中对在训练数据集合中包括的多个训练示例中的至少一个训练示例重复执行第二训练操作集合的至少一部分,使得至少一个训练示例被重复用于训练机器学习模型;以及
其中,一个或多个重复迭代的速率至少部分基于回声因子,所述回声因子至少部分基于与执行第一训练操作集合相关联的第一计算时间和与执行第二训练操作集合相关联的第二计算时间的比较。
2.根据权利要求1所述的方法,其中,由一个或多个计算设备执行一个或多个重复迭代减少空闲时间,空闲时间在一个或多个计算设备正在执行第一训练操作集合而不执行第二训练操作集合时发生。
3.根据前述权利要求中的任一项所述的方法,其中,由一个或多个计算设备执行一个或多个重复迭代包括:
对于多个迭代中的每一个:
由一个或多个计算设备将训练数据集合中的至少一个训练示例输入到机器学习模型中;
由一个或多个计算设备接收至少一个训练输出作为机器学习模型的输出;
由一个或多个计算设备评估至少一个训练输出;以及
至少部分地基于至少一个训练输出的评估,由一个或多个计算设备调整机器学习模型的参数;
其中,多个迭代的数量至少部分地基于回声因子。
4.根据权利要求3所述的方法,还包括:由一个或多个计算设备通过对至少一个训练示例应用变换来增强至少一个训练示例。
5.根据权利要求4所述的方法,其中,所述由一个或多个计算设备增强至少一个训练示例被包括在第一训练操作集合中,使得至少一个训练示例在一个或多个重复迭代期间不改变。
6.根据权利要求4所述的方法,其中,所述由一个或多个计算设备增强至少一个训练示例被包括在第二训练操作集合中,使得至少一个训练示例在一个或多个重复迭代的每一个期间被增强。
7.根据前述权利要求中的任一项所述的方法,其中,由一个或多个计算设备执行一个或多个重复迭代还包括:
由一个或多个计算设备对训练数据集合的一批多个训练示例中的每一个执行训练步骤;
由一个或多个计算设备对训练数据的所述一批多个训练示例中的每一个重复训练步骤基于回声因子的重复次数。
8.根据前述权利要求中的任一项所述的方法,还包括:由一个或多个计算设备动态地调整回声因子。
9.根据前述权利要求中的任一项所述的方法,还包括:
由一个或多个计算设备实时监视以下中的一项或两项:
与执行第一训练操作集合相关联的第一计算时间;和
与执行第二训练操作集合相关联的第二计算时间;以及
至少部分地基于与执行第一训练操作集合相关联的第一计算时间和与执行第二训练操作集合相关联的第二计算时间的比较,由一个或多个计算设备实时动态地调整,以实时减少空闲时间,空闲时间在一个或多个计算设备正在执行第一训练操作集合而不执行第二训练操作集合时发生。
10.根据前述权利要求中的任一项所述的方法,还包括:
由一个或多个计算设备对至少一个训练示例和机器学习模型评估损失函数,以确定至少一个训练示例的损失值;以及
由一个或多个计算设备基于损失值来调整回声因子。
11.根据前述权利要求...
【专利技术属性】
技术研发人员:D崔,AT帕索斯,CJ谢吕,GE达尔,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。