为模型预测控制提供时空代价地图推断的系统和方法技术方案

技术编号:36799540 阅读:11 留言:0更新日期:2023-03-08 23:30
一种用于为模型预测控制提供时空代价地图推断的系统和方法,该系统和方法包括接收基于动态的数据和基于环境的数据,以确定与自我意识代理和交通环境相关联的观察和目标信息。该系统和方法还包括用这些观察和目标信息训练神经网络,并基于至少一个时空代价地图确定该自我意识代理的最佳路径。该系统和方法还包括控制该自我意识代理以基于该自我意识代理的该最佳路径自主地操作。的该最佳路径自主地操作。的该最佳路径自主地操作。

【技术实现步骤摘要】
为模型预测控制提供时空代价地图推断的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求2021年9月2日提交的美国临时申请序列号63/240,123的优先权,该美国临时申请以引用方式并入本文。

技术介绍

[0003]用于自主驾驶的目标函数通常要求平衡安全性、效率和平滑性等问题。可能难以自主地产生驾驶员行为,使得其对于其他交通参与者而言看起来是自然的和可解释的。虽然制定此类目标通常并非易事,但最终结果可能产生对于其他交通参与者而言不寻常且难以解释的行为,这继而可能对在各种驾驶场景中自主地导航车辆产生影响。

技术实现思路

[0004]根据一个方面,一种用于为模型预测控制提供时空代价地图推断的计算机实现的方法包括接收基于动态的数据和基于环境的数据,以确定与自我意识代理和交通环境相关联的观察和目标信息。该计算机实现的方法还包括用观察和目标信息训练神经网络。该神经网络基于观察和目标信息输出至少一个时空代价地图。该计算机实现的方法还包括基于该至少一个时空代价地图确定自我意识代理的最佳路径。该计算机实现的方法还包括控制自我意识代理以基于自我意识代理的最佳路径自主地操作。
[0005]根据另一方面,一种用于为模型预测控制提供时空代价地图推断的系统包括:存储器,该存储器存储指令,这些指令在由处理器执行时使得处理器接收基于动态的数据和基于环境的数据,以确定与自我意识代理和交通环境相关联的观察和目标信息。这些指令还使得处理器用观察和目标信息训练神经网络。该神经网络基于观察和目标信息输出至少一个时空代价地图。这些指令还使得处理器基于该至少一个时空代价地图确定自我意识代理的最佳路径。这些指令还使得处理器控制自我意识代理以基于自我意识代理的最佳路径自主地操作。
[0006]根据又一方面,一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储指令,这些指令在由包括处理器的计算机执行时执行一种方法,该方法包括接收基于动态的数据和基于环境的数据以确定与自我意识代理和交通环境相关联的观察和目标信息。该计算机实现的方法还包括用观察和目标信息训练神经网络。该神经网络基于观察和目标信息输出至少一个时空代价地图。该计算机实现的方法还包括基于该至少一个时空代价地图确定自我意识代理的最佳路径。该计算机实现的方法还包括控制自我意识代理以基于自我意识代理的最佳路径自主地操作。
附图说明
[0007]被认为是本公开的特性的新颖特征在所附权利要求中提出。在下面的描述中,在整个说明书和附图中,相似的部分分别用相同的数字标记。为了清楚和简洁起见,附图未必按比例绘制,并且某些附图可以以夸大或概括的形式示出。然而,当结合附图阅读时,通过
参照说明性实施方案的以下详细说明,将最好地理解本公开本身及其优选的使用方式、其进一步的目的和进步,其中:
[0008]图1是根据本公开的示例性实施方案的用于为模型预测控制提供时空代价地图推断的示例性系统的示意图;
[0009]图2是根据本公开的示例性实施方案的由预测控制应用程序106执行的时空代价地图学习方法的示意性概述;
[0010]图3是根据本公开的示例性实施方案的用于确定要输入到神经网络的观察和目标的过程流程图;
[0011]图4是根据本公开的示例性实施方案的用于确定基于由时空代价地图推断所确定的最佳控制策略的方法的过程流程图;并且
[0012]图5是根据本公开的示例性实施方案的用于为模型预测控制提供时空代价地图推断的方法的过程流程图。
具体实施方式
[0013]以下包括本文采用的选定术语的定义。定义包括落入某个术语的范围内的并且可用于实施方式的部件的各种示例和/或形式。这些示例并非旨在进行限制。
[0014]如本文所用,“总线”是指可互连的架构,其可操作地连接到在计算机内或在计算机之间的其他计算机部件。总线可以在计算机部件之间传输数据。总线可以是存储器总线、存储器控制器、外围总线、外部总线、纵横开关和/或本地总线等等。总线还可以是使用诸如面向媒体的系统传送(MOST)、控制器局域网(CAN)、本地互连网络(LIN)等等协议来将在车辆内的部件互连的车辆总线。
[0015]如本文所用,“计算机通信”是指在两个或更多个计算设备(例如,计算机、个人数字助理、蜂窝电话、网络设备)之间的通信,并且可以是例如网络传输、文件传输、小程序传输、电子邮件、超文本传输协议(HTTP)传输等。计算机通信可以跨例如无线系统(例如,IEEE 802.11)、以太网系统(例如,IEEE 802.3)、令牌环系统(例如,IEEE 802.5)、局域网(LAN)、广域网(WAN)、点对点系统、电路交换系统、分组交换系统等等发生。
[0016]如本文所用,“盘”可以是例如磁盘驱动器、固态磁盘驱动器、软盘驱动器、磁带驱动器、Zip驱动器、闪存存储器卡和/或记忆棒。此外,盘可以是CD

ROM(压缩盘ROM)、CD可记录驱动器(CD

R驱动器)、CD可重写驱动器(CD

RW驱动器)和/或数字视频ROM驱动器(DVD ROM)。盘可以存储控制或分配计算设备的资源的操作系统。
[0017]如本文所用,“存储器”可以包括易失性存储器和/或非易失性存储器。非易失性存储器可以包括例如ROM(只读存储器)、PROM(可编程只读存储器)、EPROM(可擦除PROM)和EEPROM(电可擦除PROM)。易失性存储器可以包括例如RAM(随机存取存储器)、同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDR SDRAM)和直接RAM总线RAM(DRRAM)。存储器可以存储控制或分配计算设备的资源的操作系统。
[0018]如本文所用,“模块”包括但不限于存储指令的非暂态计算机可读介质、在机器上执行的指令、在机器上执行的硬件、固件、软件、和/或每一者的组合以执行一个或多个功能或一个或多个动作和/或引起另一个模块、方法和/或系统执行功能或动作。模块还可以包括逻辑、软件控制微处理器、离散逻辑电路、模拟电路、数字电路、编程逻辑设备、包含执行
指令的存储器设备、逻辑门、门组合和/或其他电路部件。多个模块可组合成一个模块,并且单个模块可分布在多个模块之间。
[0019]“可操作的连接”或使实体“可操作地连接”的连接是可发送和/或接收信号、物理通信和/或逻辑通信的连接。可操作的连接可以包括无线接口、物理接口、数据接口和/或电气接口。
[0020]如本文所用,“处理器”处理信号并且执行一般计算和算术功能。由处理器处理的信号可以包括数字信号、数据信号、计算机指令、处理器指令、消息、位、位串流或可被接收、传输和/或检测的其他手段。一般来讲,处理器可以是多种处理器,包括多个单核和多核处理器和协处理器以及其他多个单核和多核处理器和协处理器架构。处理器可以包括各种模块以执行各种功能。
[0021]如本文所用,“运载工具”是指能够运载一个或多个人类乘员并且本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于为模型预测控制提供时空代价地图推断的计算机实现的方法,所述方法包括:接收基于动态的数据和基于环境的数据以确定与自我意识代理和交通环境相关联的观察和目标信息;用所述观察和目标信息训练神经网络,其中由所述神经网络基于所述观察和目标信息输出至少一个时空代价地图;基于所述至少一个时空代价地图确定所述自我意识代理的最佳路径;以及控制所述自我意识代理以基于所述自我意识代理的所述最佳路径自主地操作。2.根据权利要求1所述的计算机实现的方法,其中接收基于动态的数据和基于环境的数据包括从所述自我意识代理的部件接收图像数据、激光雷达数据和动态数据。3.根据权利要求2所述的计算机实现的方法,其中所述图像数据、激光雷达数据和动态数据被聚合以确定所述观察和目标信息。4.根据权利要求1所述的计算机实现的方法,其中输出鸟瞰图二维表示以表示所述交通环境,所述鸟瞰图二维表示包括在多个时间步长处所述自我意识代理和位于所述交通环境内的至少一个交通代理的定位,其中所述表示还可包括目标信息,所述目标信息包括所述自我意识代理的未来航向。5.根据权利要求4所述的计算机实现的方法,其中对于所述多个时间步长中的每个时间步长,确定与所述自我意识代理和正在所述交通环境中操作的至少一个交通代理的操作有关的代价函数。6.根据权利要求1所述的计算机实现的方法,其中确定所述自我意识代理的所述最佳路径包括执行目标条件逆向强化学习,以使用目标信息来确定要达到哪个状态,从而提供目标条件代价地图学习。7.根据权利要求6所述的计算机实现的方法,其中确定所述自我意识代理的所述最佳路径包括执行模型预测控制,以基于所述至少一个时空代价地图找到最佳控制和状态轨迹。8.根据权利要求7所述的计算机实现的方法,还包括分析所述自我意识代理的状态信息和所述至少一个交通代理的状态信息,以确定所述自我意识代理的预测状态轨迹是否与所述至少一个交通代理的预测状态轨迹潜在地重叠,其中当确定所述潜在重叠时,执行所述模型预测控制执行的k

1个步长。9.根据权利要求7所述的计算机实现的方法,其中控制所述自我意识代理包括分析所述最佳控制和状态轨迹并与所述自我意识代理的自主控制器通信,以基于所述最佳控制和状态轨迹自主控制所述自我意识代理的至少一个操作功能。10.一种用于为模型预测控制提供时空代价地图推断的系统,所述系统包括:存储器,所述存储器存储指令,所述指令在由处理器执行时使得所述处理器:接收基于动态的数据和基于环境的数据以确定与自我意识代理和交通环境相关联的观察和目标信息;用所述观察和目标信息训练神经网络,其中由所述神经网络基于所述观察和目标信息输出至少一个时空代价地图;基于所述至少一个时空...

【专利技术属性】
技术研发人员:李根泽D
申请(专利权)人:本田技研工业株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1