【技术实现步骤摘要】
一种用于认知无线电的多智能体协作频谱感知与接入方法
[0001]本专利技术属于物联网通信
,具体涉及一种用于认知无线电的多智能体协作频谱感知与接入方法。
技术介绍
[0002]随着无线通信技术的发展和无线多媒体应用的增加,无线频谱成为越来越紧张的资源,研究表明,现有的频谱管理与分配策略是造成频谱资源紧缺的主要原因之一。认知无线电的出现,为缓解频谱资源不足、实现频谱动态管理及提高频谱利用率开创了崭新的局面。
[0003]认知无线电,广义来说是指无线电终端具备足够的智能和认知能力,通过对周围无线环境的历史和当前状况进行检测、分析、学习、推理和规划,利用相应的结果,选择合适的频段进行传输。
[0004]认知无线电由两种用户组成,一种是主要用户(Primary Users):随时占用任意频带传输信息;另一种是次要用户(Secondary Users):感知频谱“空洞”,在主要用户不占用该频段时,使用该频段进行传输。认知无线电网络通过识别和探索授权主用户的频谱空洞,可以大大提高临时和空间频谱利用率。然而,由于主信道的占用是动态变化的,快速和准确的频谱感知是至关重要的。
[0005]多智能体系统是一种全新的分布式计算技术。在多智能体系统中,每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,从而获得该环境下最优策略的过程就多智能体强化学习。在单智能体强化学习中,智能体所在的环境是稳定不变的,但是在多智能体强化学习中,环境是复杂的、动态的。
[0006]在多智能体系统中 ...
【技术保护点】
【技术特征摘要】
1.一种用于认知无线电的多智能体协作频谱感知与接入方法,其特征在于,基于一认知无线电网络,所述认知无线电网络中有M个主要用户PU、N个次要用户SU,N
fb
个正交信道,PU的发射功率固定为P,信道噪声为加性高斯白噪声;所述感知与接入方法包括:步骤S101:获取N个所述SU中每一个SU
n
在当前时间帧开始时的环境参数,其中所述n=1,2,
…
,N,所述环境参数包括所述每一个SU
n
的观测S
n
;步骤S102:将所述每一个SU
n
在当前时间帧开始时的所述环境参数输入确定性策略深度梯度MADDPG模型;步骤S103:获取所述MADDPG模型输出的每一个SU
n
在当前时间帧的感知策略,其中所述感知策略是选择某一个信道检测是否空闲;步骤S104:将SUn的感知结果及其合作伙伴的感知结果融合成全局状态S(t),再把全局状态S(t)与全局动作A(t)、奖励r(t)和下一时刻状态S(t+1)送到确定性策略深度梯度MADDPG模型的经验重放缓冲区;将所述全局状态S(t)作为下一时刻的观测,如此循环往复,直到训练步数结束。2.如权利要求1所述的一种用于认知无线电的多智能体协作频谱感知与接入方法,其特征在于,所述步骤S103还包括:每一时间帧开始时,所有SU同时按照自己的观测选择自身策略,即选择某一信道检测该信道是否空闲,每个SU有且仅有一次机会,直至所有的SU找到一个空闲信道或者失败,则一个时间帧结束。3.如权利要求1或2所述的一种用于认知无线电的多智能体协作频谱感知与接入方法,其特征在于,所述步骤S104中,将SUn的感知结果及其合作伙伴的感知结果融合成全局状态S(t)的方法为:步骤S1041:当前SU
n
根据历史时刻其他SU执行动作后的所获得奖励计算可信度,若某个SU曾担任过当前SU
n
的合作伙伴,则会过的更高的可信度;步骤S1042:根据可信度计算相应权重;步骤S1043:计算其余SU被选作合作伙伴的次数;步骤S1044:综合上述其余SU的权重和次数,对其余SU进行排序,选择最优的一个或者几个作为当前SU
n
的合作伙伴;步骤S1045:合作伙伴之间共享检测结果,融合检测结果成为全局状态。4.如权利要求3所述的一种用于认知无线电的多智能体协作频谱感知与接入方法,其特征在于,选择合作伙伴的具体方法为:定义可靠性变量:根据公式(1)计算步骤S1041中的可靠性,n代表SU,k代表合作伙伴,t'表示初始时刻,t
s
表示终止时刻,t表示当前时刻,ρ
n,k
(t)表示在当前时刻下SU
n
选择SU
k
作为其合作伙伴的可靠性,由初始时刻到当前时刻累计折扣奖励计算,其中γ为衰减率,r
n
为SU
n
获得的奖励,G
n
为合作伙伴集合,I(
·
)为指示函数,若k∈G
n
∪n,则I(
·
)=1,否则I(
·
)=0;
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。