在自动驾驶模拟中通过不同代理管理对车辆的灵活控制的系统和方法技术方案

技术编号:37855952 阅读:9 留言:0更新日期:2023-06-14 22:49
用于控制对象的行为的方法和系统。在第一时间段期间所述对象的行为是通过使用第一代理控制的,所述第一代理应用第一行为策略以将所述第一时间段中关于所述对象和环境的观察结果映射到相应控制动作。在所述第一时间段后的过渡期内,将控制权从所述第一代理过渡到第二代理。在所述过渡期后的第二时间段期间所述对象的行为是通过使用第二代理控制的,所述第二代理应用第二行为策略以将所述第二时间段中关于所述对象和所述环境的观察结果映射到应用于所述对象的相应控制动作。在过渡期间,所述第一代理应用所述第一行为策略控制所述对象,并且所述第二代理应用所述第二行为策略以将关于所述对象和所述环境的观察结果映射到未应用于所述对象的相应控制动作。到未应用于所述对象的相应控制动作。到未应用于所述对象的相应控制动作。

【技术实现步骤摘要】
【国外来华专利技术】在自动驾驶模拟中通过不同代理管理对车辆的灵活控制的系统和方法
[0001]本申请要求2020年7月28日提交的专利技术名称为“在自动驾驶模拟中通过不同代理管理对车辆的灵活控制的系统和方法(System and Method for Managing Flexible Control of Vehicles by Diverse Agents in Autonomous Driving Simulation)”的美国专利申请号16/941,505和2020年8月10日提交的题为“在自动驾驶模拟中通过不同代理管理对车辆的灵活控制的系统和方法(System and Method for Managing Flexible Control of Vehicles by Diverse Agents in Autonomous Driving Simulation)”的美国专利申请号16/989,776的优先权,这些申请通过引用并入本文,就像完整地复制一样。


[0002]本专利技术涉及模拟环境中机器人的控制代理。

技术介绍

[0003]自动机器人控制领域的研究与开发(Research and Development,R&D)严重依赖模拟来训练、测试、评估和验证控制车辆的自动驾驶软件代理。一般来说,模拟越真实和多样化,就越有用。模拟的真实性使模拟环境与现实世界保持一致。模拟的多样性,特别是自动机器人(例如,在正在开发的主要自动驾驶软件代理控制下的自车)与不受正在开发的主要自动驾驶软件代理控制的其它交通参与者(特别是社会车辆)之间模拟交互的多样性,确保覆盖现实世界中的行为变化(即自车和社会车辆的行为变化)。真实性和多样性的关键是,交通参与者,特别是社会车辆,在他们与自车以及彼此交互过程中的行为。同时,社会车辆的行为需要是可组合、可控、可配置和自动化的,以实现表达性和可重复的模拟,这对于自动驾驶软件代理的有效训练、测试、评估、验证和培训至关重要。因此,自动驾驶模拟需要提供真实且多样化的社会车辆交互行为,以及适当的机制来组合、控制、配置和自动化这些行为的使用。这反过来意味着,即使自动驾驶研发的主要目标是开发一个能够成为有能力的自动驾驶者的单一代理,但自动驾驶模拟需要灵活地组合多个不同的代理,以帮助开发这样一个单一代理。
[0004]现有的模拟系统为在模拟环境中独立控制社会车辆提供的选项有限。
[0005]因此,需要能够由不同的自动驾驶软件代理灵活控制的系统和方法,该自动驾驶软件代理用于控制自动驾驶模拟中的模拟车辆,包括社会车辆和自车。

技术实现思路

[0006]本专利技术描述了使对象的控制权能够从应用第一行为策略的第一代理过渡到应用第二行为策略的第二代理的方法和系统。行为策略是将观察结果映射到控制动作的功能组件。对象的控制权在过渡期内过渡,所述过渡期可以使第二代理能够被初始化,以便在将对象的控制权从第一代理过渡到第二代理时促进平滑过渡。示例实施例可以跨不同场景使用专门用于这些场景的自动驾驶软件代理以不同的方式控制对象。使用专门的自动驾驶软件
代理可以减少在某些应用中控制对象所需的计算资源(例如,处理器操作和/或存储器访问和容量),应用包括可能需要同时控制几个自动驾驶软件代理的模拟环境。
[0007]在至少一个示例方面中,本专利技术描述了一种用于控制对象的行为的计算机实现的方法,包括:通过使用第一代理控制在第一时间段期间所述对象的行为,所述第一代理应用第一行为策略以将所述第一时间段中关于所述对象和环境的观察结果映射到应用于所述对象的相应控制动作;在所述第一时间段后的过渡期内,将所述对象的行为控制权从所述第一代理过渡到第二代理;通过使用第二代理控制在所述过渡期后的第二时间段期间所述对象的行为,所述第二代理应用第二行为策略以将所述第二时间段中关于所述对象和所述环境的观察结果映射到应用于所述对象的相应控制动作。在所述过渡期内,所述第一代理应用所述第一行为策略,以将所述过渡期中关于所述对象和所述环境的观察结果映射到应用于所述对象的相应控制动作,所述第二代理应用所述第二行为策略,以将所述过渡期中关于所述对象和所述环境的观察结果映射到未应用于所述对象的相应控制动作。
[0008]至少在上述示例方面中,由所述第一行为策略映射的所述观察结果和由所述第二行为策略映射的所述观察结果各自来自各自不同的观察空间。
[0009]在上述示例方面中的至少一些中,在所述过渡期内,关于所述对象和所述环境的一组观察结果修改为包括所述第二行为策略所需的关于所述对象和所述环境的观察结果。
[0010]在上述示例方面中的至少一些中,第一时间段对应于所述对象出现在由第一时空边界定义的第一区域中的时间,所述第二时间段对应于所述对象出现在由第二时空边界定义的第二区域中的时间,所述过渡期对应于所述对象出现在所述第一区域和所述第二区域之间的过渡区域内的时间,所述方法包括在所述对象出现在所述第一区域中后检测到所述对象出现在所述过渡区域中时执行过渡。
[0011]在上述方面中的至少一些中,所述方法还包括在所述第二时间段后的另一过渡期内,将所述对象的行为控制权从所述第二代理过渡到所述第一代理。在所述另一过渡期内,所述第二代理应用所述第二行为策略,以将第二过渡期中关于所述对象和所述环境的观察结果映射到应用于所述对象的相应控制动作,所述第一代理应用所述第一行为策略,以将在所述另一过渡期中关于所述对象和所述环境的观察结果映射到未应用于所述对象的相应控制动作。
[0012]在上述示例方面中的至少一些中,所述方法在模拟运行期间应用,所述对象是模拟对象,关于所述对象和所述环境的所述观察结果是关于所述对象和所述环境的模拟观察结果。
[0013]在上述示例方面中的至少一些中,所述对象是在模拟环境中操作的模拟社会车辆,所述模拟环境还包括在整个所述第一时间段、过渡期和第二时间段中由相应自车代理控制的模拟自车,所述相应自车代理应用自车行为策略,以将进行中的关于所述自车和所述环境的观察结果映射到应用于所述自车的相应自车控制动作。
[0014]在上述示例方面中的至少一些中,所述第二区域和所述过渡区域固定在虚拟位置,所述虚拟位置与所述模拟自车在所述模拟环境内的虚拟位置一起移动。
[0015]在上述示例方面中的至少一些中,所述第二区域和所述过渡区域固定在虚拟位置,所述虚拟位置相对于所述模拟环境内的虚拟物理位置静止。
[0016]在上述示例方面中的至少一些中,所述第一行为策略的计算密集度低于所述第二
行为策略。
[0017]在上述示例方面中的至少一些中,所述第二行为策略用于从观察空间映射关于所述对象和所述环境的观察结果,所述观察空间相对于所述第一行为策略用于从中映射关于所述对象和所述环境的观察结果的观察空间更丰富。
[0018]在上述示例方面中的至少一些中,所述第二行为策略用于从动作空间将关于所述对象和所述环境的观察结果映射到控制动作,所述动作空间相对于所述第一行为策略用于从中将关于所述对象和所述环境的观察本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于控制对象的行为的计算机实现的方法,其特征在于,包括:通过使用第一代理控制在第一时间段期间所述对象的行为,所述第一代理应用第一行为策略以将所述第一时间段中关于所述对象和环境的观察结果映射到应用于所述对象的相应控制动作;在所述第一时间段后的过渡期内,将所述对象的行为控制权从所述第一代理过渡到第二代理;通过使用第二代理控制在所述过渡期后的第二时间段期间所述对象的行为,所述第二代理应用第二行为策略以将所述第二时间段中关于所述对象和所述环境的观察结果映射到应用于所述对象的相应控制动作;其中,在所述过渡期内,所述第一代理应用所述第一行为策略,以将所述过渡期中关于所述对象和所述环境的观察结果映射到应用于所述对象的相应控制动作,所述第二代理应用所述第二行为策略,以将所述过渡期中关于所述对象和所述环境的观察结果映射到未应用于所述对象的相应控制动作。2.根据权利要求1所述的方法,其特征在于,由所述第一行为策略映射的所述观察结果和由所述第二行为策略映射的所述观察结果各自来自各自不同的观察空间。3.根据权利要求1或2所述的方法,其特征在于,在所述过渡期内,关于所述对象和所述环境的一组观察结果修改为包括所述第二行为策略所需的关于所述对象和所述环境的观察结果。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述第一时间段对应于所述对象出现在由第一时空边界定义的第一区域中的时间,所述第二时间段对应于所述对象出现在由第二时空边界定义的第二区域中的时间,所述过渡期对应于所述对象出现在所述第一区域和所述第二区域之间的过渡区域中的时间,所述方法包括在所述对象出现在所述第一区域中后检测到所述对象出现在所述过渡区域中时执行过渡。5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:在所述第二时间段后的另一过渡期内,将所述对象的行为控制权从所述第二代理过渡到所述第一代理;其中,在所述另一过渡期内,所述第二代理应用所述第二行为策略,以将第二过渡期中关于所述对象和所述环境的观察结果映射到应用于所述对象的相应控制动作,所述第一代理应用所述第一行为策略,以将在所述另一过渡期中关于所述对象和所述环境的观察结果映射到未应用于所述对象的相应控制动作。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法在模拟运行期间应用,所述对象是模拟对象,关于所述对象和所述环境的所述观察结果是关于所述对象和所述环境的模拟观察结果。7.根据权利要求6所述的方法,其特征在于,所述对象是在模拟环境中操作的模拟社会车辆,所述模拟环境还包括在整个所述第一时间段、过渡期和第二时间段中由相应自车代理控制的模拟自车,所述相应自车代理应用自车行为策略,以将进行中的关于所述自车和所述环境的观察结果映射到应用于所述自车的相应自车控制动作。8.根据权利要求7所述的方法,其特征在于,所述第一时间段对应于所述对象出现在由第一时空边界定义的第一区域中的时间,所述第二时间段对应于所述对象出现在由第二时
空边界定义的第二区域中的时间,所述过渡期对应于所述对象出现在第一气泡和第二气泡之间的过渡区域中的时间,所述方法包括在所述对象出现在所述第一区域中后检测到所述对象出现在所述过渡区域中时执行过渡,并且其中所述第二区域和所述过渡区域固定在虚拟位置,所述虚拟位置与所述模拟自车在所述模拟环境内的虚拟位置一起移动。9.根据权利要求7所述的方法,其特征在于,所述第一时间段对应于所述对象出现在由第一时空边界定义的第一区域中的时间,所述第二时间段对应于所述对象出现在由第二时空边界定义的第二区域中的时间,所述过渡期对应于所述对象出现在所述第一区域和所述第二区域之间的过渡区域中的时间,所述方法包括在所述对象出现在所述第一区域中后检测到所述对象出现在所述过渡区域中时执行过渡,并且其中所述第二区域和所述过渡区域固定在虚拟位置,所述虚拟位置相对于所述模拟环境内的虚拟物理位置静止。10.根据权利要求1至9中任一项所述的方法,其特征在于,所述第一行为策略的计算密集度低于所述第二行为策略。11.根据权利要求10所述的方法,其特征在于,所述第二行为策略用于从观察空间映射关于所述对象和所述环境的观察结果,所述观察空间相对于所述第一行为策略用于从中映射观察结果的观察空间更丰富。12.根据权利要求11所述的方法,其特征在于,所述第二行为策略用于从动作空间将关于所述对象和所述环境的观察结果映射到控制动作,所述动作空间相对于所述第一行为策略用于从中将关于所述对象和所述环境的观察结果映射到控制动作的动作空间更丰富。13.一种计算机系统,其特征在于,包括:处理器;耦合到所述处理器的存储器,所述存储器存储指令,所述指令在由所述处理器执行时将所述计算机系统配置成:通过使用第一代理控制在第一时间段期间所述对象的行为,所述第一代理应用第一行为策略以将所述第一时间段中关于所述对象和环境的观察结果映...

【专利技术属性】
技术研发人员:罗军朱利安
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1