使用多模态输入选择动作制造技术

技术编号:23102890 阅读:40 留言:0更新日期:2020-01-14 21:21
方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于选择要由与环境交互的智能体执行的动作。在一个方面,一种系统包括语言编码器模型,该语言编码器模型被配置为接收特定自然语言的文本串,并处理该文本串以生成该文本串的文本嵌入。系统包括观察编码器神经网络,该观察编码器神经网络被配置为接收表征环境的状态的观察,并处理该观察以生成该观察的观察嵌入。系统包括子系统,该子系统被配置为获得当前文本串的当前文本嵌入和当前观察的当前观察嵌入。子系统被配置为选择智能体响应于当前观察要执行的动作。

Select actions using multimodal input

【技术实现步骤摘要】
【国外来华专利技术】使用多模态输入选择动作
技术介绍
本说明书涉及强化学习。在强化学习系统中,智能体(agent)通过执行由强化学习系统响应于接收到表征环境的当前状态的观察选择的动作来与环境交互。一些强化学习系统按照神经网络的输出,选择智能体响应于接收到给定的观察要执行的动作。神经网络是采用一层或多层非线性单元来预测接收的输入的输出的机器学习模型。一些神经网络是深度神经网络,除了输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一个层(即下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集合的当前值从接收的输入生成输出。
技术实现思路
本说明书描述了一种系统,该系统被实现为在一个或多个位置的一个或多个计算机上的计算机程序,其选择要由与环境交互的强化学习智能体执行的动作。根据第一方面,提供一种用于选择要由与环境交互的智能体执行的动作的系统,该系统包括一个或多个计算机以及一个或多个存储设备,该存储设备存储指令。当所述指令由所述一个或多个计算机执行时,使所述一个或多个计算机实现语言编码器模型、观察编码器神经网络和子系统。<br>语言编码器模型本文档来自技高网...

【技术保护点】
1.一种用于选择要由与环境交互的智能体执行的动作的系统,该系统包括一个或多个计算机以及一个或多个存储设备,该一个或多个存储设备存储指令,所述指令当由所述一个或多个计算机执行时,使所述一个或多个计算机实现:/n语言编码器模型,被配置为:/n接收特定自然语言的输入文本串,以及/n处理输入文本串以生成输入文本串的文本嵌入;/n观察编码器神经网络,被配置为:/n接收表征环境的状态的输入观察,以及/n处理输入观察以生成输入观察的观察嵌入;以及/n子系统,被配置为:/n接收特定自然语言的当前文本串,所述当前文本串表达关于智能体当前正在执行的当前任务的信息;/n提供当前文本串作为语言编码器模型的输入,以获得...

【技术特征摘要】
【国外来华专利技术】20170605 US 62/515,4581.一种用于选择要由与环境交互的智能体执行的动作的系统,该系统包括一个或多个计算机以及一个或多个存储设备,该一个或多个存储设备存储指令,所述指令当由所述一个或多个计算机执行时,使所述一个或多个计算机实现:
语言编码器模型,被配置为:
接收特定自然语言的输入文本串,以及
处理输入文本串以生成输入文本串的文本嵌入;
观察编码器神经网络,被配置为:
接收表征环境的状态的输入观察,以及
处理输入观察以生成输入观察的观察嵌入;以及
子系统,被配置为:
接收特定自然语言的当前文本串,所述当前文本串表达关于智能体当前正在执行的当前任务的信息;
提供当前文本串作为语言编码器模型的输入,以获得当前文本串的当前文本嵌入;
接收表征环境的当前状态的当前观察;
提供当前观察作为观察编码器神经网络的输入,以获得当前观察的当前观察嵌入;
组合当前观察嵌入和当前文本嵌入,以生成当前组合嵌入;以及
使用当前组合嵌入,选择智能体响应于当前观察要执行的动作。


2.根据权利要求1所述的系统,其中,所述指令还使所述一个或多个计算机实现:
动作选择神经网络,被配置为:
接收输入组合嵌入,以及
处理输入组合嵌入以生成动作选择输出。


3.根据权利要求2所述的系统,其中,使用当前组合嵌入选择智能体响应于当前观察要执行的动作包括:
提供当前组合嵌入作为动作选择神经网络的输入,以获得当前动作选择输出;以及
使用当前动作选择输出,选择智能体响应于当前观察要执行的动作。


4.根据权利要求3所述的系统,其中,所述当前动作选择输出定义智能体要执行的可能动作上的概率分布,并且其中,选择智能体要执行的动作包括:从所述概率分布中采样动作或根据概率分布选择具有最高概率的动作。


5.根据权利要求3所述的系统,其中,对于智能体要执行的多个可能动作中的每一个,所述当前动作选择输出包括相应的Q值,所述相应的Q值是智能体响应于当前观察执行所述可能动作而导致的回报的估计,并且其中,选择智能体要执行的动作包括:选择具有最高Q值的动作。


6.根据权利要求3所述的系统,其中,所述当前动作选择输出识别智能体响应于当前观察要执行的最佳可能动作,并且其中,选择智能体要执行的动作包括:选择所述最佳可能动作。


7.根据权利要求1至6中任一项所述的系统,其中,所述语言编码器模型是递归神经网络。


8.根据权利要求1至6中任一项所述的系统,其中,所述语言编码器模型是词袋编码器。


9.根据权利要求1至8中任一项所述的系统,其中,所述当前文本串是用于所述智能体执行当前任务的自然语言指令。


10.根据权利要求1至9中任一项所述的系统,其中,所述当前观察嵌入是当前观察的特征矩阵,并且其中,所述当前文本嵌入是当前文本串的特征向量。


11.根据权利要求10所述的系统,其中,组合当前观察嵌入和当前文本嵌入包括:
将当前观察的特征矩阵扁平化;以及
拼接扁平化的特征矩阵和当前文本串的特征向量。


12.根据权利要求1至11中任一项所述的系统,其中,对于在当前任务的执行期间接收的每个观察,当前文本串是相同的。


13.根据权利要求1至11中任一项所述的系统,其中,当前文本串与在当前任务的执行期间接收的先前文本串不同。


14.一种训练根据权利要求2至13中任一项所述的语言编码器模型、观察编码器神经网络和动作选择神经网络的方法,该方法包括:
接收作为智能体响应于当前观察执行当前动作的结果的当前奖励;
通过执行机器学习训练技术的迭代以优化基于当前奖励的任务特定目标,确定动作选择神经网络的参数的当前值的任务特定更新;以及
通过将任务特定目标的梯度反向传播通过动作选择神经网络并且到语言编码器模型和观察编码器神经网络中,确定语言编码器模型和观察编码器神经网络的参数的当前值的任务特定更新。


15.根据权利要求14所述的方法,其中,所述任务特定目标是使响应于智能体在当前任务的执行期间执行的动作而接收的时间折扣期望回报最大化,并且其中,执行所述机器学习训练技术的迭代包括:执行强化学习技术的迭代,以使用当前奖励和当前动作选择输出来优化任务特...

【专利技术属性】
技术研发人员:KM赫尔曼P布伦森FG希尔
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1