一种用于认知无线电的多智能体协作频谱感知与接入方法技术

技术编号:31786606 阅读:11 留言:0更新日期:2022-01-08 10:43
本发明专利技术公开了一种用于认知无线电的多智能体协作频谱感知与接入方法,包括:步骤S101:获取每一个SU

【技术实现步骤摘要】
一种用于认知无线电的多智能体协作频谱感知与接入方法


[0001]本专利技术属于物联网通信
,具体涉及一种用于认知无线电的多智能体协作频谱感知与接入方法。

技术介绍

[0002]随着无线通信技术的发展和无线多媒体应用的增加,无线频谱成为越来越紧张的资源,研究表明,现有的频谱管理与分配策略是造成频谱资源紧缺的主要原因之一。认知无线电的出现,为缓解频谱资源不足、实现频谱动态管理及提高频谱利用率开创了崭新的局面。
[0003]认知无线电,广义来说是指无线电终端具备足够的智能和认知能力,通过对周围无线环境的历史和当前状况进行检测、分析、学习、推理和规划,利用相应的结果,选择合适的频段进行传输。
[0004]认知无线电由两种用户组成,一种是主要用户(Primary Users):随时占用任意频带传输信息;另一种是次要用户(Secondary Users):感知频谱“空洞”,在主要用户不占用该频段时,使用该频段进行传输。认知无线电网络通过识别和探索授权主用户的频谱空洞,可以大大提高临时和空间频谱利用率。然而,由于主信道的占用是动态变化的,快速和准确的频谱感知是至关重要的。
[0005]多智能体系统是一种全新的分布式计算技术。在多智能体系统中,每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,从而获得该环境下最优策略的过程就多智能体强化学习。在单智能体强化学习中,智能体所在的环境是稳定不变的,但是在多智能体强化学习中,环境是复杂的、动态的。
[0006]在多智能体系统中,至少存在两个以上的智能体,智能体之间存在一定的关系,如合作关系、竞争关系或者同时存在合作与竞争关系。本专利技术实例中智能体之间既相互合作,共享感知结果,又相互竞争,即竞争频谱资源,存在接入碰撞问题。在多智能体系统中,每个智能体获得的回报不仅与自身动作有关,还与其他智能体的动作有关系,即智能体之间相互影响。
[0007]一般情况下,当一个智能体,即次要用户SU有呼入需求时,它会按顺序扫描所有信道,直至检测到一个空闲信道或者失败,这种信道感知和接入方法会造成一定的传输延迟和频谱利用率低等问题。由于衰落和阴影效应等的影响,每个 SU在一个时隙只能检测一个信道,当通信网络中信道数目多于SU数目时,此种检测方式效率较低,同时极大地降低频谱利用率。

技术实现思路

[0008]本专利技术的目的是提供一种用于认知无线电的多智能体协作频谱感知与接入方法,以解决SU如何快速找到空闲信道的同时避免与其他用户碰撞的问题。
[0009]本专利技术采用以下技术方案:一种用于认知无线电的多智能体协作频谱感知与接入
方法,基于一认知无线电网络,所述认知无线电网络中有M个主要用户 PU、N个次要用户SU,N
fb
个正交信道,PU的发射功率固定为P,信道噪声为加性高斯白噪声;
[0010]所述感知与接入方法包括:
[0011]步骤S101:获取所述N个SU中每一个SU
n
在当前时间帧开始时的环境参数,其中所述n=1,2,

,N,所述环境参数包括所述每一个SU
n
的观测S
n

[0012]步骤S102:将所述每一个SU
n
在当前时间帧开始时的所述环境参数输入确定性策略深度梯度MADDPG模型;
[0013]步骤S103:获取所述MADDPG模型输出的每一个SU
n
在当前时间帧的感知策略,其中所述感知策略是选择某一个信道检测是否空闲;
[0014]步骤S104:将SUn的感知结果及其合作伙伴的感知结果融合成全局状态 S(t),再把全局状态S(t)与全局动作A(t)、奖励r(t)和下一时刻状态S(t+1)送到确定性策略深度梯度MADDPG模型的经验重放缓冲区;
[0015]将所述全局状态S(t)作为下一时刻的观测,如此循环往复,直到训练步数结束。
[0016]进一步的,步骤S103还包括:每一时间帧开始时,所有SU同时按照自己的观测选择自身策略,即选择某一信道检测该信道是否空闲,每个SU有且仅有一次机会,直至所有的SU找到一个空闲信道或者失败,则一个时间帧结束。
[0017]进一步的,步骤S104中,将SUn的感知结果及其合作伙伴的感知结果融合成全局状态S(t)的方法为:
[0018]步骤S1041:当前SU
n
根据历史时刻其他SU执行动作后的所获得奖励计算可信度,若某个SU曾担任过当前SU
n
的合作伙伴,则会过的更高的可信度;
[0019]步骤S1042:根据可信度计算相应权重;
[0020]步骤S1043:计算其余SU被选作合作伙伴的次数;
[0021]步骤S1044:综合上述其余SU的权重和次数,对其余SU进行排序,选择最优的一个或者几个作为当前SU
n
的合作伙伴;
[0022]步骤S1045:合作伙伴之间共享检测结果,融合检测结果成为全局状态。
[0023]进一步的,选择合作伙伴的具体方法为:
[0024]定义可靠性变量:
[0025][0026]根据公式(1)计算步骤S1041中的可靠性,n代表SU,k代表合作伙伴, t'表示初始时刻,t
s
表示终止时刻,t表示当前时刻,ρ
n,k
(t)表示在当前时刻下SU
n
选择SU
k
作为其合作伙伴的可靠性,由初始时刻到当前时刻累计折扣奖励计算,其中γ为衰减率,r
n
为SU
n
获得的奖励,G
n
为合作伙伴集合,I(
·
)为指示函数,若k∈G
n
∪n,则I(
·
)=1,否则I(
·
)=0;
[0027][0028]根据公式(2)计算步骤S1042中的权重,ω
n,k
(t)表示当前时刻下SU
n
选择 SU
k
作为其合作伙伴融合检测结果时SU
k
所占的权重,其中ρ
n,k
(t)表示当前时刻的伙伴可靠性,G
n
为合作伙伴集合,该权重是当前SU
k
的可信度与G
n
中所有 SU的可信度之和的比值,其余的SU序
号用k'表示;
[0029][0030]根据公式(3)计算步骤S1043中的合作次数,累计开始时刻到当前时刻t的合作次数,G
n
为合作伙伴集合,I(
·
)为指示函数,若k∈G
n
,则I(
·
)=1,否则I(
·
)=0;
[0031][0032]根据公式(4)对其余SU进行排序,选择值最大的一个或者几个作为合作伙伴,ω
n,k
为伙伴权本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于认知无线电的多智能体协作频谱感知与接入方法,其特征在于,基于一认知无线电网络,所述认知无线电网络中有M个主要用户PU、N个次要用户SU,N
fb
个正交信道,PU的发射功率固定为P,信道噪声为加性高斯白噪声;所述感知与接入方法包括:步骤S101:获取N个所述SU中每一个SU
n
在当前时间帧开始时的环境参数,其中所述n=1,2,

,N,所述环境参数包括所述每一个SU
n
的观测S
n
;步骤S102:将所述每一个SU
n
在当前时间帧开始时的所述环境参数输入确定性策略深度梯度MADDPG模型;步骤S103:获取所述MADDPG模型输出的每一个SU
n
在当前时间帧的感知策略,其中所述感知策略是选择某一个信道检测是否空闲;步骤S104:将SUn的感知结果及其合作伙伴的感知结果融合成全局状态S(t),再把全局状态S(t)与全局动作A(t)、奖励r(t)和下一时刻状态S(t+1)送到确定性策略深度梯度MADDPG模型的经验重放缓冲区;将所述全局状态S(t)作为下一时刻的观测,如此循环往复,直到训练步数结束。2.如权利要求1所述的一种用于认知无线电的多智能体协作频谱感知与接入方法,其特征在于,所述步骤S103还包括:每一时间帧开始时,所有SU同时按照自己的观测选择自身策略,即选择某一信道检测该信道是否空闲,每个SU有且仅有一次机会,直至所有的SU找到一个空闲信道或者失败,则一个时间帧结束。3.如权利要求1或2所述的一种用于认知无线电的多智能体协作频谱感知与接入方法,其特征在于,所述步骤S104中,将SUn的感知结果及其合作伙伴的感知结果融合成全局状态S(t)的方法为:步骤S1041:当前SU
n
根据历史时刻其他SU执行动作后的所获得奖励计算可信度,若某个SU曾担任过当前SU
n
的合作伙伴,则会过的更高的可信度;步骤S1042:根据可信度计算相应权重;步骤S1043:计算其余SU被选作合作伙伴的次数;步骤S1044:综合上述其余SU的权重和次数,对其余SU进行排序,选择最优的一个或者几个作为当前SU
n
的合作伙伴;步骤S1045:合作伙伴之间共享检测结果,融合检测结果成为全局状态。4.如权利要求3所述的一种用于认知无线电的多智能体协作频谱感知与接入方法,其特征在于,选择合作伙伴的具体方法为:定义可靠性变量:根据公式(1)计算步骤S1041中的可靠性,n代表SU,k代表合作伙伴,t'表示初始时刻,t
s
表示终止时刻,t表示当前时刻,ρ
n,k
(t)表示在当前时刻下SU
n
选择SU
k
作为其合作伙伴的可靠性,由初始时刻到当前时刻累计折扣奖励计算,其中γ为衰减率,r
n
为SU
n
获得的奖励,G
n
为合作伙伴集合,I(
·
)为指示函数,若k∈G
n
∪n,则I(
·
)=1,否则I(
·
)=0;

【专利技术属性】
技术研发人员:高昂杜程圆梁微常宝成
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1