基于多智能体强化学习的分布式动态频谱接入方法技术

技术编号：31842804 阅读：19 留言：0更新日期：2022-01-12 13:22

本发明专利技术公开一种基于多智能体强化学习的分布式动态频谱接入方法，该方法将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型，并构建集中式训练、分布式执行的多智能体强化学习框架，该多智能体强化学习框架包括离线训练模块和在线执行模块，在线执行模块利用学习到的接入策略进行认知用户的频谱接入，而离线训练模块则根据认知用户的频谱接入结果对在线执行模块进行动态的更新。本发明专利技术提供了一种通信环境自主适应、网络规模可扩展的多用户协作频谱接入方法，在避免对授权用户的干扰时，减少认知用户之间的接入冲突，从而最大化认知用户的接入成功率，提高频谱的利用效率。利用效率。利用效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于多智能体强化学习的分布式动态频谱接入方法

[0001]本专利技术涉及无线通信网络
，尤其是一种基于多智能体强化学习的分布式动态频谱接入方法及系统。

技术介绍

[0002]在认知无线网络中，认知用户采用overlay的方式机会接入授权用户的频谱空洞进行数据传输。分布式的多用户动态频谱接入面临两大挑战：一是避免认知用户对主用户的干扰，也就是当主用户占用授权频谱进行数据传输时，认知用户不能接入对应的频谱；二是避免认知用户之间的接入冲突，也就是避免两个以上认知用户接入同一个频谱空洞，导致数据传输不成功。由于单个认知节点感知能力有限，只能观测到部分信道状态信息。同时，由于隐藏节点、遮蔽物等因素的影响，导致认知用户的感知信息不完全，不准确。

技术实现思路

[0003]本专利技术提供一种基于多智能体强化学习的分布式动态频谱接入方法及系统，用于克服现有技术中认知用户机会接入授权用户的频谱空洞进行数据传输时会对主用户产生干扰，同时认知用户之间会产生接入冲突导致通信系统吞吐量低等缺陷。
[0004]为实现上述目的，本专利技术提出一种基于多智能体强化学习的分布式动态频谱接入方法，包括以下步骤：
[0005]将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型，并构建集中式训练、分布式执行的多智能体强化学习框架；所述多智能体强化学习框架包括离线训练模块和在线执行模块；
[0006]根据认知用户自身的窄带感知能力，获取局部频谱占用信息；
[0007]根据所述局部频谱占用信息...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的分布式动态频谱接入方法，其特征在于，包括以下步骤：将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型，并构建集中式训练、分布式执行的多智能体强化学习框架；所述多智能体强化学习框架包括离线训练模块和在线执行模块；根据认知用户自身的窄带感知能力，获取局部频谱占用信息；根据所述局部频谱占用信息，通过训练好的在线执行模块，利用学习到的接入策略进行认知用户的频谱接入；实时监测认知用户的接入成功率，当成功率低于阈值时，离线训练模块对在线执行模块进行重新训练，以自主适应各种通信环境。2.如权利要求1所述的基于多智能体强化学习的分布式动态频谱接入方法，其特征在于，所述离线训练模块包括集中训练器，所述集中训练器通过网络边缘计算服务器进行构建；所述在线执行模块包括策略网络，所述策略网络加载在认知用户端。3.如权利要求2所述的基于多智能体强化学习的分布式动态频谱接入方法，其特征在于，所述离线训练模块通过公共信道收集认知用户与无线环境的交互信息，利用收集到的交互信息给每个认知用户训练一个相互协作的策略网络，并将训练好的策略网络参数通过公共信道发送给对应的认知用户以更新对应认知用户端策略网络的参数。4.如权利要求1所述的基于多智能体强化学习的分布式动态频谱接入方法，其特征在于，实时监测认知用户的接入成功率，包括：根据认知用户的频谱接入情况，利用多智能体强化学习框架输出当次频谱接入的奖励值；根据所述奖励值实时监测认知用户的接入成功率。5.如权利要求4所述的基于多智能体强化学习的分布式动态频谱接入方法，其特征在于，根据认知用户的频谱接入情况，利用多智能体强化学习框架输出当次频谱接入的奖励值，包括：将所有认知用户的接入成功次数相加作为每个...

【专利技术属性】
技术研发人员：周力，谭翔，魏急波，赵海涛，熊俊，高文颖，唐麒，张姣，曹阔，刘潇然，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人