【技术实现步骤摘要】
【国外来华专利技术】
本说明书涉及使用机器学习模型来处理数据。
技术介绍
1、机器学习模型接收输入并基于所接收的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并且基于所接收的输入和模型的参数值来生成输出。
2、一些机器学习模型是采用多层模型来生成针对接收到的输入的输出的深度模型。例如,深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型,每个隐藏层将非线性变换应用于接收到的输入以生成输出。
技术实现思路
1、本说明书总体上描述了一种被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统,该系统训练用于选择要由与环境交互的智能体执行的动作的智能体神经网络。具体地,系统训练智能体神经网络,使得智能体神经网络可以用于控制智能体执行多个任务中的任何任务。每个任务可以包括例如导航到环境中的指定位置、识别环境中的特定对象、以指定方式操纵特定对象等中的一个或多个。
2、在一个方面,描述了一种用于训练智能体神经网络以用于控制智能体执行多个任务的计算机实现的方法。该方法包括维护指
...【技术保护点】
1.一种用于训练智能体神经网络以用于控制智能体执行多个任务的计算机实现的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,在所述候选任务上训练所述候选智能体神经网络包括通过强化学习在所述候选任务上训练所述候选智能体神经网络。
3.根据任一前述权利要求所述的方法,其中,用于所述候选任务的所述控制策略是均匀随机动作策略,所述均匀随机动作策略在控制所述智能体执行所述候选任务时采取从动作集合中随机均匀选择的动作。
4.根据权利要求1或2所述的方法,其中,用于所述候选任务的所述控制策略是单个任务策略,所述单个任务策略在控制所述智能体执
...【技术特征摘要】
【国外来华专利技术】
1.一种用于训练智能体神经网络以用于控制智能体执行多个任务的计算机实现的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,在所述候选任务上训练所述候选智能体神经网络包括通过强化学习在所述候选任务上训练所述候选智能体神经网络。
3.根据任一前述权利要求所述的方法,其中,用于所述候选任务的所述控制策略是均匀随机动作策略,所述均匀随机动作策略在控制所述智能体执行所述候选任务时采取从动作集合中随机均匀选择的动作。
4.根据权利要求1或2所述的方法,其中,用于所述候选任务的所述控制策略是单个任务策略,所述单个任务策略在控制所述智能体执行所述候选任务时使用仅在所述候选任务上已被训练的单个候选智能体神经网络。
5.根据权利要求1或2中任一项所述的方法,其中,用于所述候选任务的所述控制策略是在控制所述智能体执行所述候选任务时使用所述候选智能体神经网络的实例但具有来自所述候选智能体神经网络的训练期间的较早点的所述候选智能体神经网络的所述参数的历史参数值的策略。
6.根据任一前述权利要求所述的方法,其中,基于(i)所述候选智能体神经网络在所述候选任务上的性能、(ii)用于所述候选任务的所述控制策略在所述候选任务上的性能以及(iii)所述候选智能体神经网络的所述超参数值中的一个或多个超参数值,来确定是否在所述候选任务上训练所述候选智能体神经网络包括:
7.根据权利要求6所述的方法,其中,基于(i)所述候选智能体神经网络在所述候选任务上的性能、(ii)用于所述候选任务的所述控制策略在所述候选任务上的性能以及(iii)所述候选智能体神经网络的所述超参数值中的一个或多个超参数值,来确定是否在所述候选任务上训练所述候选智能体神经网络包括:
8.根据权利要求7所述的方法,其中,仅当由所述相应候选智能体回报所测量的所述候选智能体神经网络的性能不超过由所述候选智能体神经网络的所述超参数值定义的阈值性能水平时,确定在所述候选任务上训练所述候选智能体神经网络包括:
9.根据权利要求6-8中任一项所述的方法,其中,基于(i)所述候选智能体神经网络在所述候选任务上的性能、(ii)用于所述候选任务的所述控制策略在所述候选任务上的性能以及(iii)所述候选智能体神经网络的所述超参数值中的一个或多个超参数值,来确定是否在所述候选任务上训练所述候选智能体神经网络包括:
10.根据权利要求9所述的方法,其中,仅当由所述相应候选智能体回报所测量的所述候选智能体神经网络的性能超过由所述相应控制策略回报所测量的所述控制策略的性能多于由所述候选智能体神经网络的所述超参数值定义的阈值性能水平时,确定在所述候选任务上训练所述候选智能体神经网络包括:
11.根据权利要求6至10中任一项所述的方法,其中,基于(i)所述候选智能体神经网络在所述候选任务上的性能、(ii)用于所述候选任务的所述控制策略在所述候选任务上的性能以及(iii)所述候选智能体神经网络的所述超参数值中的一个或多个超参数值,来确定是否在所述候选任务上训练所述候选智能体神经网络包括:
12.根据权利要求11所述的方法,其中仅当由所述相应控制策略回报所测量的所述控制策略的性能低于由所述候选智能体神经网络的所述超参数值定义的阈值性能水平时,确定在所述候选任务上训练所述候选智能体神经网络包括:
13.根据任一前述权利要求所述的方法,进一步包括:
14.根据权利要求13所述的方法,其中,一个或多个候选智能体神经网络的所述群体包括多个神经网络,并且其中,调...
【专利技术属性】
技术研发人员:麦克斯维尔·埃利奥特·耶德贝里,沃伊切赫·恰尔内茨基,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。