智能体动作的确定方法和装置、电子设备和介质制造方法及图纸

技术编号:31495544 阅读:18 留言:0更新日期:2021-12-18 12:36
本公开实施例公开了一种智能体动作的确定方法和装置、电子设备和介质,其中,智能体动作的确定方法包括:在当前时间步,基于智能体的当前状态生成第一动作序列,第一动作序列包括至少一个时间步的第一动作;基于当前状态及第一动作序列,确定第一动作序列中各第一动作对应的第一状态动作序列价值;基于第一动作序列中各第一动作对应的第一状态动作序列价值及候选动作序列中各第二动作对应的第二状态动作序列价值,确定当前要执行的目标动作序列;基于目标动作序列确定当前要执行的目标动作,以使智能体根据目标动作行动。实现了每个时间步都可以生成多步动作参与到后续目标动作的确定中,实现时间协调探索,有效提高探索效率。效率。效率。

【技术实现步骤摘要】
智能体动作的确定方法和装置、电子设备和介质


[0001]本公开涉及智能控制技术,尤其是一种智能体动作的确定方法和装置、电子设备和介质。

技术介绍

[0002]无人设备在真实的自然环境中,可以视为具有感知和行动能力的智能体,智能体的行动通常需要进行规划后按照规划来执行相应的动作,现有技术中,通常是基于智能体的当前状态生成符合最大化预期的未来回报的单步动作作为当前要执行的目标动作,探索效率较低。

技术实现思路

[0003]为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种智能体动作的确定方法和装置、电子设备和介质。
[0004]根据本公开实施例的一个方面,提供了一种智能体动作的确定方法,包括:在当前时间步,基于智能体的当前状态生成第一动作序列,所述第一动作序列包括至少一个时间步的第一动作;基于所述当前状态及所述第一动作序列,确定所述第一动作序列中各第一动作对应的第一状态动作序列价值,所述第一状态动作序列价值为状态动作序列价值函数值;基于所述第一动作序列中各第一动作对应的第一状态动作序列价值及候选动作序列中各第二动作对应的第二状态动作序列价值,确定当前要执行的目标动作序列,所述候选动作序列是前一时间步所执行动作序列中剩余的未执行动作所形成的动作序列;基于所述目标动作序列确定当前要执行的目标动作,以使所述智能体根据所述目标动作行动。
[0005]根据本公开实施例的另一方面,提供一种智能体动作的确定装置,包括:生成模块,用于在当前时间步,基于智能体的当前状态生成第一动作序列,所述第一动作序列包括至少一个时间步的第一动作;确定模块,用于基于所述当前状态及所述第一动作序列,确定所述第一动作序列中各第一动作对应的第一状态动作序列价值,所述第一状态动作序列价值为状态动作序列价值函数值;第一处理模块,用于基于所述第一动作序列中各第一动作对应的第一状态动作序列价值及候选动作序列中各第二动作对应的第二状态动作序列价值,确定当前要执行的目标动作序列,所述候选动作序列是前一时间步所执行动作序列中剩余的未执行动作所形成的动作序列;第二处理模块,用于基于所述目标动作序列确定当前要执行的目标动作,以使所述智能体根据所述目标动作行动。
[0006]根据本公开实施例的再一方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开上述任一实施例所述的智能体动作的确定方法。
[0007]根据本公开实施例的又一方面,提供一种电子设备,所述电子设备包括:
[0008]处理器;
[0009]用于存储所述处理器可执行指令的存储器;
[0010]所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本公开上述任一实施例所述的智能体动作的确定方法。
[0011]基于本公开上述实施例提供的智能体动作的确定方法和装置、电子设备和介质,在当前时间步可以基于智能体的当前状态生成包括至少一个时间步动作的动作序列,基于生成的动作序列的状态动作序列价值及前一时间步所执行的动作序列中剩余动作的状态动作序列价值来确定当前时间步要执行的目标动作序列,进而基于目标动作序列来确定当前时间步要执行的目标动作,也即每个时间步都可以生成多步动作参与到后续目标动作的确定中,有效提高探索效率。
[0012]下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
[0013]通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0014]图1是本公开所适用的一个示例性场景示意图;
[0015]图2是本公开一示例性实施例提供的智能体动作的确定方法的流程示意图;
[0016]图3是本公开一示例性实施例提供的步骤201的一种流程示意图;
[0017]图4是本公开一示例性实施例提供的动作序列生成器的一种示例性结构示意图;
[0018]图5是本公开一示例性实施例提供的结合跳跃连接的RNN单元的一种示例性结构示意图;
[0019]图6是本公开一示例性实施例提供的状态动作序列价值网络模型的一种示例性结构示意图;
[0020]图7是本公开另一示例性实施例提供的智能体动作的确定方法的流程示意图;
[0021]图8是本公开一示例性实施例提供的步骤302的一种示例性流程示意图;
[0022]图9是本公开一示例性实施例提供的步骤203的一种示例性流程示意图;
[0023]图10是本公开一示例性实施例提供的预设映射规则的一种示例性流程示意图;
[0024]图11是本公开一示例性实施例提供的CARLA任务的网络结构的一种示例性结构示意图;
[0025]图12是本公开一示例性实施例提供的CARLA环境及其控制器接口的一种示例性结构示意图;
[0026]图13是本公开一示例性实施例提供的驾驶场景的动作确定的整体流程示意图;
[0027]图14是本公开一示例性实施例提供的驾驶场景执行目标动作的处理流程示意图;
[0028]图15是本公开一示例性实施例提供的GPM算法与其他算法的Pendulum任务训练期间状态访问和演化结果的可视化示意图;
[0029]图16是本公开一示例性实施例提供的GPM算法与其他算法的性能效果曲线示意图;
[0030]图17是本公开一示例性实施例提供的GPM算法与其他算法的探索轨迹可视化结果示意图;
[0031]图18是本公开一示例性实施例提供的GPM算法生成动作序列的形式演进过程示意图;
[0032]图19是本公开一示例性实施例提供的GPM生成的动作序列的可视化示意图;
[0033]图20是本公开一示例性实施例提供的智能体动作的确定装置的结构示意图;
[0034]图21是本公开一示例性实施例提供的生成模块501的一种示例性结构示意图;
[0035]图22是本公开另一示例性实施例提供的智能体动作的确定装置的结构示意图;
[0036]图23是本公开一示例性实施例提供的电子设备的结构框图。
具体实施方式
[0037]下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
[0038]应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0039]本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
[0040]还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能体动作的确定方法,包括:在当前时间步,基于智能体的当前状态生成第一动作序列,所述第一动作序列包括至少一个时间步的第一动作;基于所述当前状态及所述第一动作序列,确定所述第一动作序列中各第一动作对应的第一状态动作序列价值,所述第一状态动作序列价值为状态动作序列价值函数值;基于所述第一动作序列中各第一动作对应的第一状态动作序列价值及候选动作序列中各第二动作对应的第二状态动作序列价值,确定当前要执行的目标动作序列,所述候选动作序列是前一时间步所执行动作序列中剩余的未执行动作所形成的动作序列;基于所述目标动作序列确定所述智能体当前需要执行的目标动作。2.根据权利要求1所述的方法,其中,所述在当前时间步,基于智能体的当前状态生成第一动作序列,包括:在当前时间步,获取所述智能体的当前状态;将所述当前状态输入到预先训练获得的动作序列生成器,生成所述第一动作序列,所述动作序列生成器是基于循环神经网络的动作序列生成模型。3.根据权利要求2所述的方法,其中,所述基于所述当前状态及所述第一动作序列,确定所述第一动作序列中各第一动作对应的第一状态动作序列价值,包括:将所述当前状态及所述第一动作序列,输入到预先训练获得的状态动作序列价值网络模型,获得所述第一动作序列中各第一动作对应的第一状态动作序列价值;所述状态动作序列价值网络模型的网络架构是基于循环神经网络建立的。4.根据权利要求3所述的方法,还包括:建立所述动作序列生成器对应的动作序列生成网络及所述状态动作序列价值网络模型对应的状态动作序列价值网络;将所述动作序列生成网络及所述状态动作序列价值网络置于目标学习环境中进行强化学习训练,当所述动作序列生成网络满足预设训练结束条件时,获得所述动作序列生成器和所述状态动作序列价值网络模型。5.根据权利要求1所述的方法,其中,所述基于所述第一动作序列中各第一动作对应的第一状态动作序列价值及候选动作序列中各第二动作对应的第二状态动作序列价值,确定当前要执行的目标动作序列,包括:获取学习获得的动作序列切换调节参数;基于所述第一动作序列中各第一动作对...

【专利技术属性】
技术研发人员:张海超徐伟余昊男
申请(专利权)人:北京地平线机器人技术研发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1