【技术实现步骤摘要】
基于策略约束通信的强化学习多车协同系统及方法
[0001]本专利技术涉及多自动驾驶车辆强化学习,自动驾驶,多车协同等
,更具体地说,涉及一种基于策略约束通信的强化学习多车协同系统及方法。
技术介绍
[0002]人工智能技术的发展促进着自动驾驶领域的不断进步,但在大量的自动驾驶车辆、人类驾驶车辆、行人等多种交通参与主体下的密集混合交通场景下更容易出现路况拥堵,协同困难,安全性难以保证等问题。
[0003]随着自动驾驶技术的不断进步,国内外近来聚焦于如何利用多自动驾驶车辆之间的协作,以改善交通路况,提高交通效率。来自多个车辆的传感器数据可以为自动驾驶车辆提供多视角信息,帮助车辆进行超视距感知,恶劣环境感知以及降低车载传感器数量成本,所以多车协同技术可以扩充自动驾驶车辆的感知,为自动驾驶技术提供更丰富的信息支持和数据来源,从而促进车辆进行更加稳健和安全的车辆行为决策。在多车协同提供的更丰富数据的条件下,多自动驾驶车辆之间也可以实现更加复杂的车辆协同,进一步基于车辆协同提高交通运行效率,缓解路况拥堵等现象。
[0004]但由于自动驾驶任务的长距离的特点,并且车辆只具备有限的通信范围,所以车辆之间会经历动态组网从而只能进行受限通信,所以多车技术的关键在于如何在此动态有限通信的设置下进行多个车辆自动驾驶车辆间有效信息传递,促进其进行分组分工合作以最大化车辆间的协同水平从而提高交通效率。
[0005]CN115993793A公开了一种基于车路协同的智能汽车控制的方法,具体为,所在区域的车辆基于车载传感 ...
【技术保护点】
【技术特征摘要】
1.一种基于策略约束通信的强化学习多车协同系统,其特征在于,包括:通讯模块和通讯控制模块;所述通讯模块安装于自动驾驶车辆上,用于获取本地的观测O={o1,o2,...o
n
};并获取其他可通信的自动驾驶车辆处的观测编码e
ij
;所述通讯控制模块安装于自动驾驶车辆上,包括基于图注意力网络的权重生成器,所述通讯控制模块用于对观测进行特征提取生成观测编码E={e1,e2,...e
n
};然后根据各自动驾驶车辆实时通信范围L={l1,l2,...l
n
}建立通信拓扑,并计算通信权重w
ij
,获取通信消息M={m1,m2,...m
n
};各自动驾驶车辆的通讯控制模块根据自身观测编码和通信消息进行行为决策获取奖励r,并仅基于本地观测编码利用个体动作估计网络g(
·
)生成本地个体动作价值估计Q
′
={Q1,Q2,...Q
n
},其中Q
′
=g(e
i
);然后将本地个体动作价值估计分布化生成本地策略,依据本地策略的相似性计算策略相似性权重再根据奖励r计算时序差分损失,基于相似性权重计算约束,反向更新模型参数;最后完成训练,将本地策略与权重生成器应用到具体场景。2.根据权利要求1所述的基于策略约束通信的强化学习多车协同系统,其特征在于,每个自动驾驶车辆均被视为一个通信节点,若两个自动驾驶车辆之间位于彼此的通信范围内,则两者间存在一条通信边,由于环境中自动驾驶车辆的动态性,所述通信拓扑为时变拓扑。3.根据权利要求1所述的基于策略约束通信的强化学习多车协同系统,其特征在于,对于任意一自动驾驶车辆i,所述通讯控制模块在给定时间步t下,对于自身从周围交通环境获取的部分观测o
i
,利用结构为单层线性嵌入网络的编码网络f(
·
),进行特征提取生成观测编码e
i
=f(o
i
),其根据自身实时的通信范围获取其中自动驾驶车辆的观测编码集E={e1,e2,...,e
n
}。4.根据权利要求1所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块在自动驾驶车辆获取的观测集合的基础上,利用自身观测编码与所有可通信自动驾驶车辆的观测编码的特征相关性,利用基于图注意力网络的权重生成器(如图3所示)计算通信系数c
ij
:由于通信范围内的自动驾驶车辆的数目是动态变化的,所以为了可拓展性,对于通信系数使用LeakyReLU非线形激活函数进行激活并进行归一化处理生成通信权重:5.根据权利要求4所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块在获得的通信权重w
ij
的基础上,将各个自动驾驶车辆的观测编码作为输入,得到以各个自动驾驶车辆的中心化视角获得通信消息;对于车辆i,其通信消息m
i
为:
6.根据权利要求5所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块为了能够进一步实现自动驾驶车辆间的分组协同,引入基于本地策略约束的通信控制,由于不同的自动驾驶车辆具备不同的策略倾向以及可能不同的行驶目标,具备相似倾向和目标的车辆间的分组协同可以有效地提升交通效率;为提取车辆的个体策略倾向,对于任意一个自动驾驶车辆i,令i仅依赖于本地的观测信息o
i
生成个体的动作驾驶价值估计Q
i
,并将该动作价值估计分布化生成本地的个体动作策略π,该动作策略表征了自动驾驶车辆基于不同目标的个体行为策略倾向:其中P(.)表示将动作价值估计进行分布化,H(.,.)表示计算两个分布间的海森堡距离。7.根据权利要求6所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块为使得具备相似策略倾向的车辆进行分组协同,通过衡量各个自动驾驶车辆有限通信范围内的个体行为策略的相似性来控制通信过程,使用了海森堡距离来计算两个分布之间的相似性,并归一化得到策略相似性权重:计算两个分布之间的相似性,并归一化得到策略相似性权重:表示分布间的相似性权重,根据该策略相似性权重可对第一部分的通信控制进行策略正则约束:策略正则约束:表示策略约束损失,该约束可以显式地促进具备相似策略倾向的自动驾驶车辆进行分...
【专利技术属性】
技术研发人员:何弢,严骏驰,廖文龙,李奇峰,
申请(专利权)人:上海酷移机器人有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。