多智能体模拟制造技术

技术编号:33441357 阅读:13 留言:0更新日期:2022-05-19 00:28
方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于生成多个智能体在多个时间步长上与之交互的环境的模拟,其中该模拟包括每个时间步长的相应模拟状态,所述相应模拟状态指定每个智能体在该时间步长的相应状态。在一个方面,一种方法包括,对于每个时间步长:获得当前时间步长的当前模拟状态;生成下一时间步长的多个候选下一模拟状态;对于每个候选下一模拟状态,确定表征该候选下一模拟状态是真实模拟状态的可能性的鉴别分数;基于候选下一模拟状态的鉴别分数,选择候选下一模拟状态作为下一时间步长的模拟状态。拟状态作为下一时间步长的模拟状态。拟状态作为下一时间步长的模拟状态。

【技术实现步骤摘要】
【国外来华专利技术】多智能体模拟


技术介绍

[0001]本说明书涉及使用机器学习模型来模拟环境。
[0002]机器学习模型接收输入并基于接收到的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并基于接收到的输入和基于模型的参数值生成输出。
[0003]一些机器学习模型是深度模型,其采用多层模型来为接收到的输入生成输出。例如,深度神经网络是一种深度机器学习模型,其包括一个输出层和一个或多个隐藏层,每个隐藏层将非线性变换应用于接收到的输入以生成输出。

技术实现思路

[0004]本说明书描述了实现为在一个或多个位置的一个或多个计算机上的计算机程序的模拟系统,该模拟系统可以学习控制与模拟环境交互的一组智能体,以使它们的行为真实地模拟真实世界智能体的行为。
[0005]根据第一方面,提供了一种由一个或多个数据处理装置执行的用于生成一组智能体在时间步长的序列上与之交互的环境的模拟的方法。所述模拟包括每个时间步长的相应模拟状态,所述相应模拟状态指定每个智能体在所述时间步长的相应状态。所述方法包括,对于每个时间步长,获得当前时间步长的当前模拟状态。基于当前模拟状态生成下一时间步长的一组候选下一模拟状态。生成每个候选下一模拟状态包括,对于每个智能体,从能够由所述智能体执行的一组可能动作中采样相应动作。对于每个智能体,确定如果智能体在当前时间步长执行对应的采样动作,则所述智能体在下一时间步长的相应下一状态。对于每个候选下一模拟状态,确定表征所述候选下一模拟状态是真实模拟状态的可能性的鉴别分数。基于候选下一模拟状态的鉴别分数,选择候选下一模拟状态作为下一时间步长的模拟状态。
[0006]在一些实现方式中,智能体是环境中的载具。
[0007]在一些实现方式中,能够由智能体执行的一组可能动作包括调整智能体的转向角的动作。
[0008]在一些实现方式中,能够由智能体执行的一组可能动作包括调整智能体的加速度的动作。
[0009]在一些实现方式中,智能体在一时间步长的状态包括:(i)智能体在该时间步长的位置,和(ii)智能体在该时间步长的运动。
[0010]在一些实现方式中,智能体的位置包括:(i)智能体在环境中的空间位置,以及(ii)智能体在环境中的航向。
[0011]在一些实现方式中,智能体的运动包括:(i)智能体的速度,和(ii)智能体的加速度。
[0012]在一些实现方式中,该方法还包括,对于每个智能体,获得环境中智能体的当前状
态的表示,以及使用策略神经网络处理环境中智能体的当前状态的表示以生成在智能体的一组可能动作上的对应概率分布。对于每个智能体,从一组可能动作中采样相应动作可以包括,对于每个智能体,根据在智能体的一组可能动作上的概率分布,从该组可能动作中采样动作。
[0013]在一些实现方式中,对于每个智能体,确定如果智能体在当前时间步长执行对应采样动作,则智能体在下一时间步长的相应下一状态包括,对于每个智能体,使用运动模型处理表征(i)智能体的当前状态以及(ii)智能体的采样动作的数据,以生成智能体在下一时间步长的下一状态。
[0014]在一些实现方式中,确定表征候选下一模拟状态是真实模拟状态的可能性的鉴别分数包括获得候选下一模拟状态的表示。可以使用鉴别器神经网络处理候选下一模拟状态的表示,以生成表征候选下一模拟状态是真实模拟状态的可能性的鉴别分数。
[0015]在一些实现方式中,获得候选下一模拟状态的表示包括:对于每个智能体,获得智能体在对应于候选下一模拟状态的下一时间步长的下一状态的表示。使用鉴别器神经网络处理候选下一模拟状态的表示可以包括,对于每个智能体,使用鉴别器神经网络处理智能体在对应于候选下一模拟状态的下一时间步长的下一状态的表示以生成表征智能体的下一状态是真实智能体状态的可能性的智能体特定鉴别分数。可以基于智能体特定鉴别分数来生成表征候选下一模拟状态是真实模拟状态的可能性的鉴别分数。
[0016]在一些实现方式中,基于智能体特定鉴别分数生成表征候选下一模拟状态是真实模拟状态的可能性的鉴别分数包括计算智能体特定鉴别分数的最小值。
[0017]在一些实现方式中,鉴别器神经网络被训练以生成鉴别分数,如果环境状态是真实世界环境状态,则鉴别分数将该环境状态表征为真实的。
[0018]在一些实现方式中,基于候选下一模拟状态的鉴别分数来选择候选下一模拟状态作为下一时间步长的模拟状态包括选择具有最高鉴别分数的候选下一模拟状态作为下一时间步长的模拟状态。
[0019]根据第二方面,提供了一种系统,所述系统包括一个或多个计算机和一个或多个存储设备,该一个或多个存储设备通信地耦合到一个或多个计算机,其中,一个或多个存储设备存储指令,这些指令在由一个或多个计算机执行时,使一个或多个计算机执行第一方面的方法的操作。
[0020]根据第三方面,提供了一种或多种存储指令的非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时,使所述一个或多个计算机执行第一方面的方法的操作。
[0021]可以实现本说明书中描述的主题的特定实施例以实现以下优点中的一个或多个。
[0022]本说明书描述了一种模拟系统,该模拟系统可以控制与环境交互的一组多个模拟智能体(例如,载具),以使其行为真实地模拟真实世界智能体(例如,由人类驾驶员控制的载具)的行为。模拟系统可用于改进规划系统的操作,该规划系统选择要由部分或完全自主载具执行的动作。例如,模拟系统可用于生成大量模拟,其中规划系统控制一个载具,而其余载具由模拟系统控制。在规划系统用于控制真实世界环境中的载具之前,这些模拟可用于识别和解决规划系统中的潜在“故障”(例如,其中规划系统选择导致载具不安全地操作的动作)。作为另一个示例,载具的规划系统可以使用模拟系统来预测环境中其他载具的可能未来行为,然后使用这些行为预测来更安全且有效地控制载具的操作。作为另一个示例,
模拟系统可用于训练规划系统以选择使载具能够在同时被其他载具占用的环境中安全、高效和舒适地操作的动作。
[0023]以前,为了测试规划系统的性能,可以生成模拟,其中规划系统将控制一个载具,而其余载具将简单地重演(replay)真实世界载具的记录行为。这样的模拟可能是不真实的,因为遵循预定轨迹的载具无法调整它们的行为来考虑由规划系统控制的载具的行为。相比之下,本说明书中描述的模拟系统可以在每个时间步长动态地选择要由在其控制下的每个载具执行的动作,同时考虑到每个其他载具的行为,即包括由规划系统控制的载具。因此,本说明书中描述的模拟系统可以生成更真实的模拟,该模拟可用于改进规划系统的操作。
[0024]本说明书中描述的模拟系统可以“采样”(即,随机地生成)从环境的给定初始条件开始的该环境的大数量的可能模拟。对不同可能的模拟进行采样使模拟系统能够模拟许多不同的场景,例如,其中由模拟系统控制的载具在规划系统控制的载具后面并入,以及其中由模拟系统控制的载具在由规划系统控制的载具之前并入。相比之下,载具重演(replay)真实世界载本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个数据处理装置执行的用于生成多个智能体在多个时间步长上与之交互的环境的模拟的方法,其中,所述模拟包括每个时间步长的相应模拟状态,所述相应模拟状态指定每个智能体在所述时间步长的相应状态,所述方法包括,对于每个时间步长:获得当前时间步长的当前模拟状态;基于当前模拟状态生成下一时间步长的多个候选下一模拟状态,其中,生成每个候选下一模拟状态包括:对于每个智能体,从能够由所述智能体执行的一组可能动作中采样相应动作;以及对于每个智能体,如果智能体在当前时间步长执行对应的采样动作,则确定所述智能体在下一时间步长的相应下一状态;对于每个候选下一模拟状态,确定表征所述候选下一模拟状态是真实模拟状态的可能性的鉴别分数;以及基于候选下一模拟状态的鉴别分数,选择候选下一模拟状态作为下一时间步长的模拟状态。2.如权利要求1所述的方法,其中,所述智能体是环境中的载具。3.如权利要求2所述的方法,其中,能够由智能体执行的所述一组可能动作包括调整所述智能体的转向角的动作。4.如权利要求2

3中任一项所述的方法,其中,能够由智能体执行的所述一组可能动作包括调整所述智能体的加速度的动作。5.如前述权利要求中任一项所述的方法,其中,智能体在一时间步长的状态包括:(i)所述智能体在所述时间步长的位置,和(ii)所述智能体在所述时间步长的运动。6.如权利要求5所述的方法,其中,所述智能体的位置包括:(i)所述智能体在所述环境中的空间位置,以及(ii)所述智能体在所述环境中的航向。7.如权利要求5

6中任一项所述的方法,其中,所述智能体的运动包括:(i)所述智能体的速度,和(ii)所述智能体的加速度。8.如前述权利要求中任一项所述的方法,还包括,对于每个智能体:获得环境中智能体的当前状态的表示;以及使用策略神经网络处理环境中智能体的当前状态的表示,以生成智能体的所述一组可能动作上的对应概率分布;其中,对于每个智能体,从所述一组可能动作中采样相应动作包括,对于每个智能体:根据智能体的所述一组可能动作上的概率分布,从所述一组可能动作中采样动作。9.如前述权利要求中任一项所述的方法,其中,对于每个智能体,如果智能体在当前时间步长执行对应的采样动作,则确定所述智能体在下一时间步长的相应下一状态包括,对于每个智能体:使用...

【专利技术属性】
技术研发人员:BA怀特
申请(专利权)人:伟摩有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1