当前位置: 首页 > 专利查询>东华大学专利>正文

基于行驶状态优先级和场景模拟的CVN频谱调度方法及系统技术方案

技术编号:35456333 阅读:25 留言:0更新日期:2022-11-03 12:15
本发明专利技术提供的一种基于行驶状态优先级和场景模拟的CVN频谱调度方法及系统,包括步骤:根据认知车辆的行驶状态及地理分散程度,计算得到所述认知车辆的优先级服务顺序列表;基于所述优先级服务顺序列表,使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架;使用所述蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程,以得到所述认知车联网的最优频谱分配方案。本发明专利技术提供的一种基于行驶状态优先级和场景模拟的认知车联网频谱调度方法,可以实现未知网络流量环境下频谱调度方案的自适应学习,快速给出近似最优解,极大地改善了蜂窝网络内认知车辆用户的链路容量和通信质量,提高了频谱资源的利用率。提高了频谱资源的利用率。提高了频谱资源的利用率。

【技术实现步骤摘要】
基于行驶状态优先级和场景模拟的CVN频谱调度方法及系统


[0001]本专利技术涉及一种基于行驶状态优先级和场景模拟的CVN(Cognitive Vehicular Networks,认知车联网)频谱调度方法及系统,属于车联网


技术介绍

[0002]当下,车联网被认为是智能交通网络系统中的一个新兴概念,简单来说,就是车辆与车辆之间或是车辆与基础设施之间进行通信的信息网。随着无处不在的网络和智能交通系统的迅猛发展,万物互联的高效通信已经引起了人们的广泛关注。智能交通的快速发展对车联网的安全业务及娱乐服务提出了更高的要求,使车联网面临着通讯需求的爆发式增长,这就引起了一系列的问题。
[0003]首先,授权频谱资源利用不足和车联网频谱资源短缺问题是制约车联网技术发展和落地的重要原因。为满足今后大规模的城市车联网的频谱资源需求,就需要更加高效的动态频谱资源调度方案。依托于认知车联网网络技术,我们试图将蜂窝网络下空闲的频谱资源合理分配给认知车辆用户。
[0004]对于移动无线网络中的动态频谱分配,目前已有很多相关研究。其中,主流的研究方法主要可分为四类:(1)基于传统优化理论的分配方法;(2)基于博弈论的分配方法;(3)基于群智能优化的粒子群算法;(4)基于机器学习的分配方法。虽然上述方法可以用于解决频谱分配问题,但也存在许多显而易见的不足。首先,当约束条件复杂时,传统的优化理论和博弈论不适合快速求解大规模动态规划问题。其次,群体智能优化容易陷入局部最优。此外,群体智能优化算法中的有效参数的设置和选择也是复杂的。最近,深度强化学习(Deep Reinforcement Learning,DRL)算法已被证明能够解决具有高维状态和动作空间的复杂动态决策问题。借助试错法的思想,它可以了解环境中潜在的规律,从而辅助智能决策。然而,这种基于机器学习的方法也存在一些局限性,如学习速度慢、收敛性差、自适应能力差等。
[0005]另外,考虑以下两方面问题:一方面,以上工作并没有将车辆的行驶状态信息纳入频谱资源调度的过程中,基于对车辆环境背景信息的纳入是可以改善频谱分配方案可靠性的。另一方面,现有的频谱分配方法往往依赖于专家经验知识和复杂的参数设置,搜索结构的可移植性不强,所以需要一种更加高效的搜索结构。现有的有关认知无线电频谱分配的研究工作并未对车辆用户自身的移动性和网络场景的额外收益进行评价并纳入求解的过程中。

技术实现思路

[0006]本专利技术的目的是解决现有技术中基站侧频谱资源利用率低下的问题。
[0007]为了达到上述目的,本专利技术的一个技术方案是提供了一种基于行驶状态优先级和场景模拟的CVN频谱调度方法,其特征在于,包括以下步骤:
[0008]S1:根据认知车辆的行驶状态及地理分散程度,计算得到认知车辆的优先级服务顺序列表;
[0009]S2:基于优先级服务顺序列表,使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架,包括以下步骤:
[0010]根据以下公式定义马尔可夫决策过程的状态空间和动作空间:
[0011][0012]式中,s
v
表示节点v的状态值,其由λ
v
、ξ
v
组成;表示基站侧的剩余带宽向量,表示信道m的剩余带宽;表示请求被分配的认知车辆个数;ξ
v
表示个认知车辆的总带宽要求;动作a
m
表示智能体将信道m分配给当前可进入分配序列的一辆车;M表示信道总数;
[0013]基于状态空间和动作空间,构建蒙特卡洛搜索树,该蒙特卡洛搜索树由节点和边组成:每个节点都维护一个节点状态值,包括节点被访问的次数、环境状态值以及节点获得的累计奖励值;边表示导致状态转换的动作;
[0014]按照优先级服务顺序列表依次对认知车辆进行频谱分配,并扩展子节点、更新节点状态值,形成蒙特卡洛搜索树算法框架;
[0015]S3:使用蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程,以得到所述认知车联网的最优频谱分配方案,其中,树策略包括选择和面向约束的扩展,具体包括以下步骤:
[0016]执行选择过程时,从根节点开始,当必须选择当前节点将下降到哪个子节点时,使用蒙特卡洛搜索树的置信上限UCT递归选择子节点,最终,将置信上限UCT最大的子节点视作当前节点进行下一步的扩展;
[0017]当选择过程达到终止时,执行面向约束的扩展操作:
[0018]判断当前节点的访问次数是否为0,若访问次数则直接进入模拟阶段;若访问次数枚举所有可用的动作,枚举时根据下式定义的约束条件修剪动作空间,以便从当前节点获得所有可用动作:
[0019][0020]式中:K表示主用户k的总数;认知车辆n为二级用户,N为二级用户总数;M表示信道m的总数;信道可用矩阵L={l
n,m
|l
n,m
∈{0,1}}
N
×
M
,当信道m对二级用户n可用时,l
n,m
=1;反
之,当信道m对二级用户n不可用时,l
n,m
=0;二级用户干扰矩阵C={c
n,n

,m
|c
n,n

,m
∈{0,1}}
N
×
N
×
M
,c
n,n

,m
=1表示当二级用户n和n

共用信道m进行信息传输时存在相互干扰,c
n,n

,m
=0则表示二级用户n和n

可以在满足无干扰约束条件下同时使用信道m;信道分配矩阵A={a
n,m
|a
n,m
∈{0,1}}
N
×
M
,a
n,m
=1表示将信道m分配给二级用户n,a
n,m
=0则视为不将信道m分配给二级用户n;信道奖励矩阵R={r
n,m
|r
n,m
≥0}
N
×
M
,r
n,m
表示二级用户n使用信道m时所获得的网络奖励;P
m,k,n
表示主用户k在信道m上接收到的二级用户n的干扰功率;δ
m,k
表示主用户k在信道m上的最大可接受干扰功率;U(A,R)表示网络系统总链路容量,A
m
、R
m
分别表示信道分配矩阵A、信道奖励矩阵R的第m列向量,运算符号表示哈达玛积,SUM是返回矩阵所有条目总和的运算符;表示二级用户n在信道m上的传输功率,和分别表示二级用户n在信道m的最小、最大允许传输功率;φ
m
表示信道m的可用带宽阈值,表示R
m
的转置向量;
[0021]然后,添加新节点以展开蒙特卡洛搜索树,并将当前节点设置为一个扩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于行驶状态优先级和场景模拟的CVN频谱调度方法,其特征在于,包括以下步骤:S1:根据认知车辆的行驶状态及地理分散程度,计算得到认知车辆的优先级服务顺序列表;S2:基于优先级服务顺序列表,使用马尔可夫决策过程构建蒙特卡洛搜索树算法框架,包括以下步骤:根据以下公式定义马尔可夫决策过程的状态空间和动作空间:式中,s
v
表示节点v的状态值,其由λ
v
、ξ
v
组成;表示基站侧的剩余带宽向量,表示信道m的剩余带宽;表示请求被分配的认知车辆个数;ξ
v
表示个认知车辆的总带宽要求;动作a
m
表示智能体将信道m分配给当前可进入分配序列的一辆车;M表示信道总数;基于状态空间和动作空间,构建蒙特卡洛搜索树,该蒙特卡洛搜索树由节点和边组成:每个节点都维护一个节点状态值,包括节点被访问的次数、环境状态值以及节点获得的累计奖励值;边表示导致状态转换的动作;按照优先级服务顺序列表依次对认知车辆进行频谱分配,并扩展子节点、更新节点状态值,形成蒙特卡洛搜索树算法框架;S3:使用蒙特卡洛搜索树算法依次迭代执行树策略、基于差异化场景的模拟及反向传播过程,以得到所述认知车联网的最优频谱分配方案,其中,树策略包括选择和面向约束的扩展,具体包括以下步骤:执行选择过程时,从根节点开始,当必须选择当前节点将下降到哪个子节点时,使用蒙特卡洛搜索树的置信上限UCT递归选择子节点,最终,将置信上限UCT最大的子节点视作当前节点进行下一步的扩展;当选择过程达到终止时,执行面向约束的扩展操作:判断当前节点的访问次数是否为0,若访问次数则直接进入模拟阶段;若访问次数枚举所有可用的动作,枚举时根据下式定义的约束条件修剪动作空间,以便从当前节点获得所有可用动作:
式中:K表示主用户k的总数;认知车辆n为二级用户,N为二级用户总数;M表示信道m的总数;信道可用矩阵L={l
n,m
|l
n,m
∈{0,1}}
N
×
M
,当信道m对二级用户n可用时,l
n,m
=1;反之,当信道m对二级用户n不可用时,l
n,m
=0;二级用户干扰矩阵C={c
n,n',m
|c
n,n',m
∈{0,1}}
N
×
N
×
M
,c
n,n',m
=1表示当二级用户n和n'共用信道m进行信息传输时存在相互干扰,c
n,n',m
=0则表示二级用户n和n'可以在满足无干扰约束条件下同时使用信道m;信道分配矩阵A={a
n,m
|a
n,m
∈{0,1}}
N
×
M
,a
n,m
=1表示将信道m分配给二级用户n,a
n,m
=0则视为不将信道m分配给二级用户n;信道奖励矩阵R={r
n,m
|r
n,m
≥0}
N
×
M
,r
n,m
表示二级用户n使用信道m时所获得的网络奖励;P
m,k,n
表示主用户k在信道m上接收到的二级用户n的干扰功率;δ
m,k
表示主用户k在信道m上的最大可接受干扰功率;U(A,R)表示网络系统总链路容量,A
m
、R
m
分别表示信道分配矩阵A、信道奖励矩阵R的第m列向量,运算符号表示哈达玛积,SUM是返回矩阵所有条目总和的运算符;表示二级用户n在信道m上的传输功率,和分别表示二级用户n在信道m的最小、最大允许传输功率;φ
m
表示信道m的可用带宽阈值,表示R
m
的转置向量;然后,添加新节点以展开蒙特卡洛搜索树,并将当前节点设置为一个扩展后随机选择的新子节点;若当前节点的访问次数为0,则执行从当前节点到终端叶子节点的模拟,当前节点为新扩展的节点终端叶子节点用表示,则模拟时将主用户的网络服务持续时间τ纳入模拟过程中多阶段扩展的奖励评价中,设主用户k的服务持续时间τ
k
对应一个不确定性场景π
k
,且主用户的网络服务持续时间服从对数正态分布;在每层模拟时进行χ次采样,以控制计算规模,得到一个场景集合,表示为则基于差异化场景的模拟包括以下步骤:当分配信道m给认知车辆n时,搜索树执行从节点到下一节点的模拟,此时节点的随机收益为:式中:E表示认知车辆n在χ个场景下获得的随机收益的期望;τ
i
是来自分布的采样之一,1≤i≤χ,τ
i
‑1就刻画了主用户服务持续时间和车辆用户收益之间的关系;utility
n
>0是一
个表示认知车辆n的网络效用分数的权重系数,使用双曲正切函数tanh(
·
)将认知车辆n的utility
n
值归一化到区间[0,1]内;Count(L
m
)记录了信道可用矩阵L的第m列中元素为1的个数,Count(A
m
)记录了信道分配矩阵A的第m列中元素为1的个数,Count(L
m
)

Count(A
m
)描述了在不考虑干扰约束C和容量约束φ
m
时信道m上最多可接入的车辆用户数,λ
m
表示信道m的剩余带宽,度量了认知车辆n当前能获得的剩余最小平均带宽;在模拟阶段为节点调整了奖励Q
v'
:式中,r
n,m
是指将信道m分配给认知车辆n的即时奖励;当模拟到达终端叶子节点时,得到从节点到终端叶子节点的模拟路径上所有节点的累积模拟奖励也即:当一次迭代到达终端叶子节点后,得到累积模拟奖励进行反向传播,反向传播的目的是在下一次迭代之前更新搜索树先验探索的经验信息,反向传播的奖励包含所有模拟路径上的扩展节点的奖励评价,反映了当前迭代中模拟策略的整体频谱分配性能;达到迭代终止条件后,输出当前认知车联网的最优频谱分配方案。2.如权利要求1所述的一种基于行驶状态优先级和场景模拟的CVN频谱调度方法,其特征在于,所述步骤S1包括以下步骤:步骤S11:对一个发起服务请求的认知车辆n,根据其行驶方向、GPS坐标、速度和加速度,计算...

【专利技术属性】
技术研发人员:李重吴先科温倩倩
申请(专利权)人:东华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1