【技术实现步骤摘要】
交通灯控制方法、无人车导航方法、模型训练方法、装置
[0001]本公开涉及计算机
,尤其涉及交通灯控制方法、无人车导航方法、模型训练方法、装置。
技术介绍
[0002]近年来,随着自动驾驶技术、5G通信、以及车联网技术的极速发展,越来越多的智能交通灯和无人车被投入实际交通中,通常智能交通灯能够根据路面车流情况来决策绿灯的亮灯动作;无人车则能够根据导航道路决策其转向动作。
[0003]在相关技术中,无人车的导航控制和智能交通灯的信号控制通常被视为两个独立的智能体去进行决策,而在复杂混合交通场景下,无人车和智能交通灯的状态信息对于彼此的决策应当是息息相关的,把二者视为独立的智能体进行决策会导致决策不准确,无法解决复杂混合交通场景的交通问题。
技术实现思路
[0004]本公开提供了一种用于解决上述技术问题中的至少一项的交通灯控制方法、无人车导航方法、模型训练方法、装置。
[0005]根据本公开的一方面,提供了一种交通灯控制方法,应用在交通灯控制端,其与无人车导航端通信连接,所述方法包括: />[0006]根据本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种交通灯控制方法,应用在交通灯控制端,其与无人车导航端通信连接,所述方法包括:根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数,生成强化交通灯状态参数;根据所述强化交通灯状态参数,生成与所述强化交通灯状态参数匹配的交通灯控制动作;其中,所述强化交通灯状态参数用于使所述无人车导航端根据所述强化交通灯状态和目标无人车当前的车辆状态参数生成强化车辆状态参数,并根据所述强化车辆状态参数生成与所述强化车辆状态参数匹配的无人车导航动作。2.根据权利要求1所述的方法,其中,所述车辆状态表征信息由所述无人车导航端根据所述预设范区域包含的无人车当前的车辆状态参数和过去多个时刻的历史车辆状态表征信息生成。3.根据权利要求1或2所述的方法,其中,所述根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数,生成强化交通灯状态参数,包括:将所述车辆状态表征信息和所述当前的交通灯状态参数拼接为混合环境信息;将所述混合环境信息输入第一编码器,获得所述强化交通灯状态参数。4.根据权利要求1
‑
3任一所述的方法,其中,所述根据所述强化交通灯状态参数,生成与所述强化交通灯状态参数匹配的交通灯控制动作,包括:获取与所述目标交通灯相关联的关联交通灯的关联交通灯状态聚合信息;根据所述强化交通灯状态参数和所述关联交通灯状态聚合信息,生成与所述强化交通灯状态参数匹配的交通灯控制动作。5.根据权利要求4所述的方法,其中,所述关联交通灯状态聚合信息通过以下方式生成:根据所述关联交通灯状态当前的交通灯状态参数,生成关联交通灯状态矩阵;根据所述关联交通灯状态矩阵、所述目标交通灯的连接度参数、所述目标交通灯的权重矩阵生成所述关联交通灯状态聚合信息。6.根据权利要求5所述的方法,其中,所述根据所述关联交通灯状态矩阵、所述目标交通灯的连接度参数、所述目标交通灯的权重矩阵生成所述关联交通灯状态聚合信息,包括:通过第一图神经网络,根据所述关联交通灯状态矩阵、所述目标交通灯的连接度参数、所述目标交通灯的权重矩阵生成所述关联交通灯状态聚合信息。7.根据权利要求1
‑
6任一所述的方法,其中,所述根据所述强化交通灯状态参数,生成与所述强化交通灯状态参数匹配的交通灯控制动作,包括:将所述所述强化交通灯状态参数输入第一强化学习模型,获得与所述强化交通灯状态参数匹配的所述交通灯控制动作。8.根据权利要求1
‑
7任一所述的方法,其中,所述根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数,生成强化交通灯状态参数之后,所述方法还包括:将所述强化交通灯状态参数输入预先训练的目标网络,得到目标向量;
其中,所述无人导航端通过第二强化学习模型,根据所述强化车辆状态参数生成与所述强化车辆状态参数匹配的无人车导航动作;所述目标向量用于使所述无人车导航端根据所述目标向量调整所述第二强化学习模型。9.一种无人车导航方法,应用在无人车导航端,其与交通灯控制端通信连接,所述方法包括:根据从所述交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数;根据所述强化车辆状态参数,生成与所述强化车辆状态参数匹配的无人车导航动作;其中,所述交通灯控制端根据权利要求1
‑
8任一所述方法生成所述强化交通灯状态参数。10.根据权利要求9所述的方法,其中,所述根据从所述交通灯控制端获取的目标交通灯当前的强化交通灯状态参数和目标无人车当前的车辆状态参数生成强化车辆状态参数之前,所述方法包括:根据所述目标交通灯的预设区域内当前包含的无人车的车辆状态参数生成车辆状态聚合信息;根据所述车辆状态聚合信息和过去多个时刻的历史车辆状态表征信息生成当前的所述车辆状态表征信息;其中,所述车辆状态表征信息用于使所述交通灯控制端根据所述目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交通灯当前的交通灯状态参数,生成所述强化交通灯状态参数。11.根据权利要求10所述的方法,其中,所述根据所述目标交通灯的预设区域内当前包含的无人车的车辆状态参数生成车辆状态聚合信息,包括:通过第二图神经网络,根据所述目标交通灯的预设区域内当前包含的无人车的车辆状态参数生成车辆状态聚合信息。12.根据权利要求10或11所述的方法,其中,所述根据所述车辆状态聚合信息和过去多个时刻的历史车辆状态表征信息生成当前的所述车辆状态表征信息,包括:将所述车辆状态聚合信息和过去多个时刻的历史车辆状态表征信息输入循环神经网络,获得所述当前的所述车辆状态表征信息;或,根据过去多个时刻的历史车辆状态表征信息构建线性函数,并通过所述线性函数根据所述车辆状态聚合信息获得所述当前的所述车辆状态表征信息。13.根据权利要求9
‑
12任一所述的方法,其中,所述根据所述强化车辆状态参数,生成与所述强化车辆状态参数匹配的无人车导航动作,包括:将所述强化车辆状态参数输入第二强化学习模型,获得与所述所述强化车辆状态参数匹配的所述无人车导航动作。14.根据权利要求13所述的方法,其中,所述方法还包括:根据目标向量调整所述第二强化学习模型;其中,所述目标向量由所述交通灯控制端通过权利要求8所述的方法生成。15.一种模型训练方法,所述方法包括:根据目标交通灯的预设区域内当前包含的无人车的车辆状态表征信息和所述目标交
通灯当前的交通灯状态参数,生成强化交通灯状态参数;将所述强化交通灯状态参数输入第一强化学习模型,得到与所述强化交通灯状态参数匹配的交通灯控制动作;执行所述交通灯控制动作,得到新的交通灯状态参数和第一奖励参数;基于所述第一奖励参数、新的交通灯状态参数、所述强化交通灯状态参数确定第一损失值;根据所述...
【专利技术属性】
技术研发人员:孙倩,张乐,周景博,熊辉,张韦嘉,鱼欢,梅雨,凌玮岑,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。