面向异构车辆的量子集体学习车辆选择和资源分配方法及系统技术方案

技术编号:39498955 阅读:15 留言:0更新日期:2023-11-24 11:28
本发明专利技术提供一种面向异构车辆的量子集体学习车辆选择和资源分配方法及系统,该方法包括:确定状态动作函数,基于状态动作函数制备量子叠加动作;通过量子强化学习进行频谱分配和集体学习车辆选择,包括:基于当前状态和制备的量子叠加动作按照概率选择动作进行执行,为每个参与车辆分配带宽;计算参与集体学习的参与车辆的集合中各主参与车辆与从参与车辆的集体学习效用;基于计算的集体学习效用得到异构车辆偏好列表,并向主参与车辆和从参与车辆分别发送对应的偏好列表,以使得主参与车辆向候选的从参与车辆发送匹配请求,从参与车辆基于其偏好列表确定是否选择主参与车辆,并向主参与车辆和路侧单元发送选择结果;基于选择结果获得匹配结果

【技术实现步骤摘要】
面向异构车辆的量子集体学习车辆选择和资源分配方法及系统


[0001]本专利技术涉及车联网和量子集体学习
,更具体涉及一种面向异构车辆的量子集体学习车辆选择和资源分配方法及系统


技术介绍

[0002]随着通信和计算技术的快速发展,近来,车联网
(Internet of Vehicles

IoV)、
联网和自动驾驶汽车
(Connected and Autonomous Vehicle

CAV)
和自动驾驶已经成为研究热点
。CAV
依靠人工智能

视觉计算

雷达

监控装置和
GPS
协同合作,从传感器收集数据并通过人工智能
(AI)
技术建模来感知环境,让电脑可以在没有任何人类主动的操作下,自动安全地操作机动车辆,提高交通系统的运输效率

因此,
AI
模型的准确性和效率对于
CAV
自动做出决策至关重要

从技术层面,自动驾驶的实现路线可分为单车智能自动驾驶与网联智能自动驾驶

[0003]单车智能自动驾驶依靠车辆自身传感器进行环境感知,并通过
AI
模型进行计算决策和控制执行,给现有车载设备的通信能力和计算能力带来了很大的挑战

目前,基于网联智能自动驾驶,应用集体学习,
CAV
可以弥补单车有限的观察和计算能力

集体学习是一种分布式训练范式,通过在智能体之间共享智能资源,可以在保证隐私的前提下弥补单个智能体的经验和计算资源不足

在集体学习中,多个
CAV
参与者可以通过彼此共享智能资源来提高
AI
模型的泛化能力

由于不同
CAV
拥有不同的智能资源

面临不同的信道状态,因此,如何选择合适的车辆参与集体学习至关重要,并且如何在
CAV
间分配有限的频谱资源对系统性能影响很大

[0004]现有方案往往采用集中式的参与车辆选择算法,此类算法首先构建系统整体的效用函数,并以该整体效用函数作为优化目标,实现集体学习中的车辆匹配

由于此类算法的优化目标是整体效用函数,而系统整体效用的最大化并不意味着每个车辆的效用最优,因此基于集中式的参与车辆选择算法得到的车辆选择结果不稳定,并且,现有的集中式的参与车辆选择算法并未给出频谱资源分配方案

[0005]目前,现有方案往往采用基于传统强化学习的频谱资源分配算法,这类算法频谱资源分配问题的状态空间

动作空间会随着车联网络的规模增长以指数级速度增长,在状态空间和动作空间很大的情况下,算法的收敛速度很慢

因此,基于传统强化学习的频谱资源分配算法难以适应大规模车联网络

再次,基于传统的强化学习频谱资源分配算法必须为每个状态

动作对存储完整的
Q
表,而这些表难以在移动设备上维护;此外,基于传统强化学习的频谱资源分配算法往往采用
ε

greedy
方法来平衡开发和探索,而该方法的参数在实际中难以设置

[0006]因此,如何快速

稳定地实现异构集体学习的车辆选择和频谱资源分配,是一个有待解决的问题


技术实现思路

[0007]有鉴于此,本专利技术提出了一种面向异构车辆的量子集体学习车辆选择和资源分配方法及装置,以解决现有技术中存在的至少一个技术问题

[0008]本专利技术的一个方面提供了一种面向异构车辆的量子集体学习车辆选择和资源分配方法,该方法包括以下步骤:
[0009]动作确定步骤,该步骤确定状态动作函数,并基于确定的状态动作函数制备量子叠加动作;
[0010]通过量子强化学习进行频谱分配和集体学习车辆选择的步骤,包括:
[0011]带宽分配步骤,基于当前状态和制备的量子叠加动作按照概率从动作空间选择要执行的动作进行执行,为每个参与车辆分配带宽,所述动作空间内的每个动作表示为参与集体学习的每个参与车辆分配频谱资源,所述参与车辆包括主参与车辆和从参与车辆;
[0012]集体学习效用计算步骤,计算参与集体学习的主参与车辆和从参与车辆的集合中各主参与车辆与从参与车辆的集体学习效用;
[0013]车辆选择步骤,基于计算的集体学习效用得到异构车辆偏好列表,所述异构车辆偏好列表包括各主参与车辆的偏好列表和各从参与车辆的偏好列表,并向主参与车辆和从参与车辆分别发送对应主参与车辆的偏好列表和对应从参与车辆的偏好列表,以使得主参与车辆基于接收到的偏好列表向候选的从参与车辆发送匹配请求,以由接收到所述匹配请求的从参与车辆基于其接收的偏好列表和已达到的配额确定是否选择所述主参与车辆,并向主参与车辆和路侧单元发送选择结果;
[0014]重复执行所述带宽分配步骤

集体学习效用计算步骤和车辆选择步骤,直至从参与车辆接受了预设的最大数量的主参与车辆之后,由路侧单元基于各从参与车辆的选择结果确定主参与车辆与从参与车辆的匹配结果;
[0015]量子态叠加动作更新步骤,基于当前匹配结果得到奖励和下一个状态,并基于得到的奖励和下一个状态执行所述动作确定步骤,以计算下一时刻的状态动作函数,并确定下一时刻的量子态叠加动作,其中,所述下一个状态来自状态空间,所述状态空间由多元组来表示,所述多元组中的元素包括:每一集体学习参与车辆的特征空间指示信息

时变信道质量

每个从参与车辆的计算能力和每个从参与车辆的可用能量;
[0016]采用格罗弗算法通过多次迭代来重复执行所述通过量子强化学习进行频谱选择和集体学习车辆选择的步骤和所述量子态叠加动作更新步骤,并更新量子叠加态动作的概率振幅

[0017]在本专利技术的一些实施例中,所述集体学习效用计算步骤包括:基于如下公式来计算参与集体学习的主参与车辆和从参与车辆的集合中各主参与车辆与从参与车辆的集体学习效用:
[0018][0019][0020]其中,表示主参与车辆
u
的集体学习效用,
T
ru,v
表示主参与车辆
u
对从参与车辆
v
的信任度,
f
du,v
表示主参与车辆
u
和从参与车辆
v
间传输的智能质量,
τ
u,v
表示主参与车

u
和从参与车辆
v
间总时延,表示
t
τ
时刻从参与车辆
v
参与主参本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向异构车辆的量子集体学习车辆选择和资源分配方法,其特征在于,该方法包括:动作确定步骤,该步骤确定状态动作函数,并基于确定的状态动作函数制备量子叠加动作;通过量子强化学习进行频谱分配和集体学习车辆选择的步骤,包括:带宽分配步骤,基于当前状态和制备的量子叠加动作按照概率从动作空间选择要执行的动作进行执行,为每个参与车辆分配带宽,所述动作空间内的每个动作表示为参与集体学习的每个参与车辆分配频谱资源,所述参与车辆包括主参与车辆和从参与车辆;集体学习效用计算步骤,计算参与集体学习的主参与车辆和从参与车辆的集合中各主参与车辆与从参与车辆的集体学习效用;车辆选择步骤,基于计算的集体学习效用得到异构车辆偏好列表,所述异构车辆偏好列表包括各主参与车辆的偏好列表和各从参与车辆的偏好列表,并向主参与车辆和从参与车辆分别发送对应主参与车辆的偏好列表和对应从参与车辆的偏好列表,以使得主参与车辆基于接收到的偏好列表向候选的从参与车辆发送匹配请求,以由接收到所述匹配请求的从参与车辆基于其接收的偏好列表和已达到的配额确定是否选择所述主参与车辆,并向主参与车辆和路侧单元发送选择结果;重复执行所述带宽分配步骤

集体学习效用计算步骤和车辆选择步骤,直至从参与车辆接受了预设的最大数量的主参与车辆之后,由路侧单元基于各从参与车辆的选择结果确定主参与车辆与从参与车辆的匹配结果;量子态叠加动作更新步骤,基于当前匹配结果得到奖励和下一个状态,并基于得到的奖励和下一个状态执行所述动作确定步骤,以计算下一时刻的状态动作函数,并确定下一时刻的量子态叠加动作,其中,所述下一个状态来自状态空间,所述状态空间由多元组来表示,所述多元组中的元素包括:每一集体学习参与车辆的特征空间指示信息

时变信道质量

每个从参与车辆的计算能力和每个从参与车辆的可用能量;采用格罗弗算法进行多次迭代来重复执行所述通过量子强化学习进行频谱选择和集体学习车辆选择的步骤和所述量子态叠加动作更新步骤,并更新量子叠加态动作的概率振幅
。2.
根据权利要求1所述的方法,其特征在于,所述集体学习效用计算步骤包括:基于如下公式来计算参与集体学习的主参与车辆和从参与车辆的集合中各主参与车辆与从参与车辆的集体学习效用:车辆的集体学习效用:其中,表示主参与车辆
u
的集体学习效用,
Tr
u,v
表示主参与车辆
u
对从参与车辆
v
的信任度,
fd
u,v
表示主参与车辆
u
和从参与车辆
v
间传输的智能质量,
τ
u,v
表示主参与车辆
u
和从参与车辆
v
间总时延,表示
t
τ
时刻从参与车辆
v
参与主参与车辆

【专利技术属性】
技术研发人员:谢人超任语铮刘天于非黄韬刘韵洁
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1