基于策略约束通信的强化学习多车协同系统及方法技术方案

技术编号:39162623 阅读:14 留言:0更新日期:2023-10-23 15:03
本发明专利技术公开了基于策略约束通信的强化学习多车协同系统及方法,包括:通讯模块和通讯控制模块;通讯模块获取本地的观测及其他可通信的车辆的观测编码;通讯控制模块建立通信拓扑,计算通信权重,获取通信消息;并生成本地个体动作价值估计;然后估计分布化生成本地策略,计算策略相似性权重;基于相似性权重计算约束,反向更新模型参数;最后将本地策略与权重生成器应用到具体场景。本发明专利技术提出的利用车辆本地状态生成通信权重的方法,基于状态信息的相关性生成权重值进行通信控制,可实现有限通信范围内的车辆自适应通信,促进车辆自发协作。同时基于自动驾驶个体策略倾向对通信进行有效约束,显式促进智能体进行分组协同从而有效提高交通效率。效提高交通效率。效提高交通效率。

【技术实现步骤摘要】
基于策略约束通信的强化学习多车协同系统及方法


[0001]本专利技术涉及多自动驾驶车辆强化学习,自动驾驶,多车协同等
,更具体地说,涉及一种基于策略约束通信的强化学习多车协同系统及方法。

技术介绍

[0002]人工智能技术的发展促进着自动驾驶领域的不断进步,但在大量的自动驾驶车辆、人类驾驶车辆、行人等多种交通参与主体下的密集混合交通场景下更容易出现路况拥堵,协同困难,安全性难以保证等问题。
[0003]随着自动驾驶技术的不断进步,国内外近来聚焦于如何利用多自动驾驶车辆之间的协作,以改善交通路况,提高交通效率。来自多个车辆的传感器数据可以为自动驾驶车辆提供多视角信息,帮助车辆进行超视距感知,恶劣环境感知以及降低车载传感器数量成本,所以多车协同技术可以扩充自动驾驶车辆的感知,为自动驾驶技术提供更丰富的信息支持和数据来源,从而促进车辆进行更加稳健和安全的车辆行为决策。在多车协同提供的更丰富数据的条件下,多自动驾驶车辆之间也可以实现更加复杂的车辆协同,进一步基于车辆协同提高交通运行效率,缓解路况拥堵等现象。
[0004]但由于自动驾驶任务的长距离的特点,并且车辆只具备有限的通信范围,所以车辆之间会经历动态组网从而只能进行受限通信,所以多车技术的关键在于如何在此动态有限通信的设置下进行多个车辆自动驾驶车辆间有效信息传递,促进其进行分组分工合作以最大化车辆间的协同水平从而提高交通效率。
[0005]CN115993793A公开了一种基于车路协同的智能汽车控制的方法,具体为,所在区域的车辆基于车载传感器获取车辆运行状态信息与车辆周围环境信息,通过V2X技术发送给路测控制单元。各路测控制单元利用模糊控制算法将识别出来的路面信息保存在路面信息库里,并路面信息与所在区域的路段路面信息库数据,结合所在区域的车辆运行状态信息与车辆周围环境信息为所在区域的车辆规划汽车行驶路径和控制执行指令,最后将车辆规划汽车行驶路径和控制执行指令发送至所对应的车辆。所在区域的各车辆按照所对应的车辆规划汽车行驶路径和控制执行指令控制车辆运行。
[0006]该技术使用中心化的控制方式对驾驶车辆发送指令,忽略了不同车辆具备不同的目标和驾驶策略偏好。本申请通过建立独立的驾驶策略网络,根据车辆的本地策略和观测信息,控制通信区域内自动驾驶车辆进行自适应通信,从而促进自动驾驶车辆进行自发分组协同。
[0007]现有技术将自动驾驶车辆建模为自动驾驶车辆,连续通信网络(Continuous Communication Net,CommNet)[1]算法为一进行自动驾驶车辆间自适应通信以实现自动驾驶车辆协同的算法,其将自动驾驶车辆从所有其他可通信自动驾驶车辆处获取的信息的平均作为通信消息,然后自动驾驶车辆根据通信消息和本地信息利用一个全局共享的网络生成通信后的本地信息向量,最后自动驾驶车辆根据此新的信息向量进行行为决策。其算法训练流程可归纳为:
[0008]表1算法处理流程伪代码
[0009][0010][0011][0012]CommNet通信过程如图1所示,在一组状态输入下需要进行多步的集中式的平均消息传递。其中f表示共享通信模块,T
i
表示第i个时间步,s
i
表示车辆本地观测到的状态信息,a
i
表示车辆的个体动作。
[0013]现有技术的缺点如下:平均化的通信方式忽略了不同车辆需要的信息的差异性,训练开销大,无法根据车辆的策略倾向显式地促进自动驾驶车辆进行分组协同,导致交通效率和车道利用率低。

技术实现思路

[0014]为了解决以上问题,本提案提出了一种基于多车个体策略约束下自适应通信的强化学习协同决策方法,分别通过车辆状态信息的相关性与个体策略的一致性控制通信过程,实现自适应通信,并促进车辆自发地分组协同。
[0015]为了实现上述目的,本专利技术采用了如下技术方案:一种基于策略约束通信的强化学习多车协同系统,包括:通讯模块和通讯控制模块;
[0016]所述通讯模块安装于自动驾驶车辆上,用于获取本地的观测O={o1,o2,

o
n
};并获取其他可通信的自动驾驶车辆处的观测编码e
ij

[0017]所述通讯控制模块安装于自动驾驶车辆上,包括基于图注意力网络的权重生成器,所述通讯控制模块用于对观测进行特征提取生成观测编码E={e1,e2,

e
n
};然后根据各自动驾驶车辆实时通信范围L={l1,l2,

l
n
}建立通信拓扑,并计算通信权重w
ij
,获取通信消息M={m1,m2,

m
n
};
[0018]各自动驾驶车辆的通讯控制模块根据自身观测编码和通信消息进行行为决策获取奖励r,并仅基于本地观测编码利用个体动作估计网络g(
·
)(如图5所示)生成本地个体动作价值估计Q

={Q1,Q2,

Q
n
},其中Q

=g(e
i
);然后将本地个体动作价值估计分布化生成本地策略,依据本地策略的相似性计算策略相似性权重j∈l
i

[0019]再根据奖励r计算时序差分损失,基于相似性权重计算约束,反向更新模型参数;最后完成训练,将本地策略与权重生成器应用到具体场景。
[0020]进一步的,每个自动驾驶车辆均被视为一个通信节点,若两个自动驾驶车辆之间位于彼此的通信范围内,则两者间存在一条通信边,由于环境中自动驾驶车辆的动态性,所述通信拓扑为时变拓扑。
[0021]进一步的,对于任意一自动驾驶车辆i,所述通讯控制模块在给定时间步t下,对自身从周围交通环境获取的部分观测o
i
,利用结构为单层线性嵌入网络的编码网络f(
·
),进行特征提取生成观测编码e
i
,其根据自身实时的通信范围获取其中自动驾驶车辆的观测编码集E={e1,e2,

,e
n
}。
[0022]进一步的,所述通信控制模块在自动驾驶车辆获取的观测集合的基础上,利用自身观测编码与所有可通信自动驾驶车辆的观测编码的特征相关性,利用基于图注意力网络的权重生成器计算通信系数c
ij

[0023][0024]由于通信范围内的自动驾驶车辆的数目是动态变化的,所以为了可拓展性,对于通信系数使用LeakyReLU非线形激活函数进行激活并进行归一化处理生成通信权重:
[0025][0026]进一步的,所述通信控制模块在获得的通信权重w
ij
的基础上,将各个自动驾驶车辆的观测编码作为输入,得到以各个自动驾驶车辆的中心化视角获得通信消息;对于车辆i,其通信消息m
i
为:
[0027][0028]进一步的,所述通信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于策略约束通信的强化学习多车协同系统,其特征在于,包括:通讯模块和通讯控制模块;所述通讯模块安装于自动驾驶车辆上,用于获取本地的观测O={o1,o2,...o
n
};并获取其他可通信的自动驾驶车辆处的观测编码e
ij
;所述通讯控制模块安装于自动驾驶车辆上,包括基于图注意力网络的权重生成器,所述通讯控制模块用于对观测进行特征提取生成观测编码E={e1,e2,...e
n
};然后根据各自动驾驶车辆实时通信范围L={l1,l2,...l
n
}建立通信拓扑,并计算通信权重w
ij
,获取通信消息M={m1,m2,...m
n
};各自动驾驶车辆的通讯控制模块根据自身观测编码和通信消息进行行为决策获取奖励r,并仅基于本地观测编码利用个体动作估计网络g(
·
)生成本地个体动作价值估计Q

={Q1,Q2,...Q
n
},其中Q

=g(e
i
);然后将本地个体动作价值估计分布化生成本地策略,依据本地策略的相似性计算策略相似性权重再根据奖励r计算时序差分损失,基于相似性权重计算约束,反向更新模型参数;最后完成训练,将本地策略与权重生成器应用到具体场景。2.根据权利要求1所述的基于策略约束通信的强化学习多车协同系统,其特征在于,每个自动驾驶车辆均被视为一个通信节点,若两个自动驾驶车辆之间位于彼此的通信范围内,则两者间存在一条通信边,由于环境中自动驾驶车辆的动态性,所述通信拓扑为时变拓扑。3.根据权利要求1所述的基于策略约束通信的强化学习多车协同系统,其特征在于,对于任意一自动驾驶车辆i,所述通讯控制模块在给定时间步t下,对于自身从周围交通环境获取的部分观测o
i
,利用结构为单层线性嵌入网络的编码网络f(
·
),进行特征提取生成观测编码e
i
=f(o
i
),其根据自身实时的通信范围获取其中自动驾驶车辆的观测编码集E={e1,e2,...,e
n
}。4.根据权利要求1所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块在自动驾驶车辆获取的观测集合的基础上,利用自身观测编码与所有可通信自动驾驶车辆的观测编码的特征相关性,利用基于图注意力网络的权重生成器(如图3所示)计算通信系数c
ij
:由于通信范围内的自动驾驶车辆的数目是动态变化的,所以为了可拓展性,对于通信系数使用LeakyReLU非线形激活函数进行激活并进行归一化处理生成通信权重:5.根据权利要求4所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块在获得的通信权重w
ij
的基础上,将各个自动驾驶车辆的观测编码作为输入,得到以各个自动驾驶车辆的中心化视角获得通信消息;对于车辆i,其通信消息m
i
为:
6.根据权利要求5所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块为了能够进一步实现自动驾驶车辆间的分组协同,引入基于本地策略约束的通信控制,由于不同的自动驾驶车辆具备不同的策略倾向以及可能不同的行驶目标,具备相似倾向和目标的车辆间的分组协同可以有效地提升交通效率;为提取车辆的个体策略倾向,对于任意一个自动驾驶车辆i,令i仅依赖于本地的观测信息o
i
生成个体的动作驾驶价值估计Q
i
,并将该动作价值估计分布化生成本地的个体动作策略π,该动作策略表征了自动驾驶车辆基于不同目标的个体行为策略倾向:其中P(.)表示将动作价值估计进行分布化,H(.,.)表示计算两个分布间的海森堡距离。7.根据权利要求6所述的基于策略约束通信的强化学习多车协同系统,其特征在于,所述通信控制模块为使得具备相似策略倾向的车辆进行分组协同,通过衡量各个自动驾驶车辆有限通信范围内的个体行为策略的相似性来控制通信过程,使用了海森堡距离来计算两个分布之间的相似性,并归一化得到策略相似性权重:计算两个分布之间的相似性,并归一化得到策略相似性权重:表示分布间的相似性权重,根据该策略相似性权重可对第一部分的通信控制进行策略正则约束:策略正则约束:表示策略约束损失,该约束可以显式地促进具备相似策略倾向的自动驾驶车辆进行分...

【专利技术属性】
技术研发人员:何弢严骏驰廖文龙李奇峰
申请(专利权)人:上海酷移机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1