【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
1、本说明书涉及使用机器学习模型处理数据。
2、机器学习模型接收输入并且基于接收到的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并且基于接收到的输入和模型的参数的值生成输出。
3、一些机器学习模型是针对接收到的输入采用多层模型来生成输出的深度模型。例如,深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型,每个隐藏层对接收到的输入应用非线性变换以生成输出。
技术实现思路
1、本说明书大体描述了在一个或多个位置中的一个或多个计算机上实施为计算机程序的系统,该系统控制与环境交互的智能体(agent)以尝试使用包括高层级控制器神经网络、中层级控制器神经网络和低层级控制器神经网络的分层控制器在环境中执行任务。
2、可以实施本说明书中描述的主题的特定实施例以便实现以下优点中的一个或多个。
3、所描述的技术通过利用离散且连续的潜在变量的三层级层次结构来控制智能体,以捕获抽象高层级行为集合,同时允许它们的执行方式中的变化。具
...【技术保护点】
1.一种用于控制与环境交互的智能体来执行任务的方法,所述方法包括在多个时间步中的每个时间步处:
2.根据权利要求1所述的方法,其中,使用所述高层级控制器神经网络处理从所述观察得出的高层级输入,以生成包括技能集合中的每个技能的相应分数的所述高层级输出包括:
3.根据权利要求2所述的方法,其中,所述高层级控制器神经网络包括用于所述技能集合中的每个技能的相应高层级神经网络头,并且其中,在所述高层级控制器神经网络以在前一时间步处选择的技能为条件的同时使用所述高层级控制器神经网络处理所述高层级输入包括:
4.根据任一前述权利要求所述的方法,其
...【技术特征摘要】
【国外来华专利技术】
1.一种用于控制与环境交互的智能体来执行任务的方法,所述方法包括在多个时间步中的每个时间步处:
2.根据权利要求1所述的方法,其中,使用所述高层级控制器神经网络处理从所述观察得出的高层级输入,以生成包括技能集合中的每个技能的相应分数的所述高层级输出包括:
3.根据权利要求2所述的方法,其中,所述高层级控制器神经网络包括用于所述技能集合中的每个技能的相应高层级神经网络头,并且其中,在所述高层级控制器神经网络以在前一时间步处选择的技能为条件的同时使用所述高层级控制器神经网络处理所述高层级输入包括:
4.根据任一前述权利要求所述的方法,其中,所述中层级控制器神经网络被配置成处理所述中层级输入,以生成包括所述潜在动作空间上的分布的参数的中层级输出,并且其中,使用所述中层级控制器神经网络处理所述中层级输入包括:
5.根据任一前述权利要求所述的方法,其中,所述中层级控制器神经网络包括用于所述技能集合中的每个技能的相应中层级神经网络头,并且其中,在中层级控制器神经网络以所选技能为条件的同时使用所述中层级控制器神经网络处理从所述观察得出的中层级输入,以生成来自潜在动作空间的潜在动作向量包括:
6.根据任一前述权利要求所述的方法,其中,所述低层级输入包括来自在所述时间步处的所述观察的与所述中层级输入和所述高层级输入不同的信息。
7.根据权利要求6所述的方法,其中,所述低层级输入仅包括所述智能体在所述时间步处的本体感觉信息,并且所述中层级和高层级输入除了所述本体感觉信息之外还包括附加信息。
8.根据权利要求6或7所述的方法,其中,所述高层级输入、所述中层级输入或两者都包括在所述时间步处所述环境的视觉观察,并且所述低层级输入不包括所述环境的所述视觉观察。
9.根据任一前述权利要求所述的方法,其中,已经通过对所述任务的训练数据的强化学习对所述高层级控制器神经网络和所述中层级控制器神经网络进行了训练,而所述低层级控制器神经网络已经进行了预训练并在所述高层级控制器神经网络和所述中层级控制器神经网络通过对所述任务的所述训练数据的强化学习的训练期间冻结。
10.根据权利要...
【专利技术属性】
技术研发人员:杜什扬特·拉奥,费雷什特·萨德吉,伦纳德·哈森克勒费尔,马库斯·武尔夫迈尔,马丁纳·赞贝利,朱莉娅·韦扎尼,德鲁瓦·蒂鲁马拉布卡帕特南,优素福·艾塔尔,乔舒亚·梅蕾尔,尼古拉斯·曼弗雷德·奥托·黑斯,拉亚·泰·哈德塞尔,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。