【技术实现步骤摘要】
为模型预测控制提供时空代价地图推断的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求2021年9月2日提交的美国临时申请序列号63/240,123的优先权,该美国临时申请以引用方式并入本文。
技术介绍
[0003]用于自主驾驶的目标函数通常要求平衡安全性、效率和平滑性等问题。可能难以自主地产生驾驶员行为,使得其对于其他交通参与者而言看起来是自然的和可解释的。虽然制定此类目标通常并非易事,但最终结果可能产生对于其他交通参与者而言不寻常且难以解释的行为,这继而可能对在各种驾驶场景中自主地导航车辆产生影响。
技术实现思路
[0004]根据一个方面,一种用于为模型预测控制提供时空代价地图推断的计算机实现的方法包括接收基于动态的数据和基于环境的数据,以确定与自我意识代理和交通环境相关联的观察和目标信息。该计算机实现的方法还包括用观察和目标信息训练神经网络。该神经网络基于观察和目标信息输出至少一个时空代价地图。该计算机实现的方法还包括基于该至少一个时空代价地图确定自我意识代理的最佳路径。该计算机实现的方法还包括控制自我意识代理以基于自我意识代理的最佳路径自主地操作。
[0005]根据另一方面,一种用于为模型预测控制提供时空代价地图推断的系统包括:存储器,该存储器存储指令,这些指令在由处理器执行时使得处理器接收基于动态的数据和基于环境的数据,以确定与自我意识代理和交通环境相关联的观察和目标信息。这些指令还使得处理器用观察和目标信息训练神经网络。该神经网络基于观察和目标信息输出至少一个时空代价地图。这 ...
【技术保护点】
【技术特征摘要】
1.一种用于为模型预测控制提供时空代价地图推断的计算机实现的方法,所述方法包括:接收基于动态的数据和基于环境的数据以确定与自我意识代理和交通环境相关联的观察和目标信息;用所述观察和目标信息训练神经网络,其中由所述神经网络基于所述观察和目标信息输出至少一个时空代价地图;基于所述至少一个时空代价地图确定所述自我意识代理的最佳路径;以及控制所述自我意识代理以基于所述自我意识代理的所述最佳路径自主地操作。2.根据权利要求1所述的计算机实现的方法,其中接收基于动态的数据和基于环境的数据包括从所述自我意识代理的部件接收图像数据、激光雷达数据和动态数据。3.根据权利要求2所述的计算机实现的方法,其中所述图像数据、激光雷达数据和动态数据被聚合以确定所述观察和目标信息。4.根据权利要求1所述的计算机实现的方法,其中输出鸟瞰图二维表示以表示所述交通环境,所述鸟瞰图二维表示包括在多个时间步长处所述自我意识代理和位于所述交通环境内的至少一个交通代理的定位,其中所述表示还可包括目标信息,所述目标信息包括所述自我意识代理的未来航向。5.根据权利要求4所述的计算机实现的方法,其中对于所述多个时间步长中的每个时间步长,确定与所述自我意识代理和正在所述交通环境中操作的至少一个交通代理的操作有关的代价函数。6.根据权利要求1所述的计算机实现的方法,其中确定所述自我意识代理的所述最佳路径包括执行目标条件逆向强化学习,以使用目标信息来确定要达到哪个状态,从而提供目标条件代价地图学习。7.根据权利要求6所述的计算机实现的方法,其中确定所述自我意识代理的所述最佳路径包括执行模型预测控制,以基于所述至少一个时空代价地图找到最佳控制和状态轨迹。8.根据权利要求7所述的计算机实现的方法,还包括分析所述自我意识代理的状态信息和所述至少一个交通代理的状态信息,以确定所述自我意识代理的预测状态轨迹是否与所述至少一个交通代理的预测状态轨迹潜在地重叠,其中当确定所述潜在重叠时,执行所述模型预测控制执行的k
‑
1个步长。9.根据权利要求7所述的计算机实现的方法,其中控制所述自我意识代理包括分析所述最佳控制和状态轨迹并与所述自我意识代理的自主控制器通信,以基于所述最佳控制和状态轨迹自主控制所述自我意识代理的至少一个操作功能。10.一种用于为模型预测控制提供时空代价地图推断的系统,所述系统包括:存储器,所述存储器存储指令,所述指令在由处理器执行时使得所述处理器:接收基于动态的数据和基于环境的数据以确定与自我意识代理和交通环境相关联的观察和目标信息;用所述观察和目标信息训练神经网络,其中由所述神经网络基于所述观察和目标信息输出至少一个时空代价地图;基于所述至少一个时空...
【专利技术属性】
技术研发人员:李根泽,D,
申请(专利权)人:本田技研工业株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。