基于多智能体强化学习的分布式动态频谱接入方法技术

技术编号:31842804 阅读:19 留言:0更新日期:2022-01-12 13:22
本发明专利技术公开一种基于多智能体强化学习的分布式动态频谱接入方法,该方法将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型,并构建集中式训练、分布式执行的多智能体强化学习框架,该多智能体强化学习框架包括离线训练模块和在线执行模块,在线执行模块利用学习到的接入策略进行认知用户的频谱接入,而离线训练模块则根据认知用户的频谱接入结果对在线执行模块进行动态的更新。本发明专利技术提供了一种通信环境自主适应、网络规模可扩展的多用户协作频谱接入方法,在避免对授权用户的干扰时,减少认知用户之间的接入冲突,从而最大化认知用户的接入成功率,提高频谱的利用效率。利用效率。利用效率。

【技术实现步骤摘要】
基于多智能体强化学习的分布式动态频谱接入方法


[0001]本专利技术涉及无线通信网络
,尤其是一种基于多智能体强化学习的分布式动态频谱接入方法及系统。

技术介绍

[0002]在认知无线网络中,认知用户采用overlay的方式机会接入授权用户的频谱空洞进行数据传输。分布式的多用户动态频谱接入面临两大挑战:一是避免认知用户对主用户的干扰,也就是当主用户占用授权频谱进行数据传输时,认知用户不能接入对应的频谱;二是避免认知用户之间的接入冲突,也就是避免两个以上认知用户接入同一个频谱空洞,导致数据传输不成功。由于单个认知节点感知能力有限,只能观测到部分信道状态信息。同时,由于隐藏节点、遮蔽物等因素的影响,导致认知用户的感知信息不完全,不准确。

技术实现思路

[0003]本专利技术提供一种基于多智能体强化学习的分布式动态频谱接入方法及系统,用于克服现有技术中认知用户机会接入授权用户的频谱空洞进行数据传输时会对主用户产生干扰,同时认知用户之间会产生接入冲突导致通信系统吞吐量低等缺陷。
[0004]为实现上述目的,本专利技术提出一种基于多智能体强化学习的分布式动态频谱接入方法,包括以下步骤:
[0005]将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型,并构建集中式训练、分布式执行的多智能体强化学习框架;所述多智能体强化学习框架包括离线训练模块和在线执行模块;
[0006]根据认知用户自身的窄带感知能力,获取局部频谱占用信息;
[0007]根据所述局部频谱占用信息,通过训练好的在线执行模块,利用学习到的接入策略进行认知用户的频谱接入;
[0008]实时监测认知用户的接入成功率,当成功率低于阈值时,离线训练模块对在线执行模块进行重新训练,以自主适应各种通信环境。
[0009]为实现上述目的,本专利技术还提出一种基于多智能体强化学习的分布式动态频谱接入系统,包括:
[0010]算法构建模块,用于将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型,并构建集中式训练、分布式执行的多智能体强化学习框架;所述多智能体强化学习框架包括离线训练模块和在线执行模块;
[0011]频谱感知模块,用于根据认知用户自身的窄带感知能力,获取局部频谱占用信息;
[0012]频谱接入模块,用于根据所述局部频谱占用信息,通过训练好的在线执行模块,利用学习到的接入策略进行认知用户的频谱接入;
[0013]实时监测模块,用于实时监测认知用户的接入成功率,当成功率低于阈值时,离线训练模块对在线执行模块进行重新训练,以自主适应各种通信环境。
[0014]为实现上述目的,本专利技术还提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
[0015]为实现上述目的,本专利技术还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述方法的步骤。
[0016]与现有技术相比,本专利技术的有益效果有:
[0017]本专利技术提供的基于多智能体强化学习的分布式动态频谱接入方法将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型,并构建集中式训练、分布式执行的多智能体强化学习框架,该多智能体强化学习框架包括离线训练模块和在线执行模块,在线执行模块利用学习到的接入策略进行认知用户的频谱接入,而离线训练模块则根据认知用户的频谱接入结果对在线执行模块进行动态的更新。本专利技术提供了一种通信环境自主适应、网络规模可扩展的多用户协作频谱接入方法,在避免对授权用户的干扰时,减少认知用户之间的接入冲突,从而最大化认知用户的接入成功率,提高频谱的利用效率。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0019]图1为本专利技术基于多智能体强化学习的分布式动态频谱接入方法示意图;
[0020]图2为本专利技术中集中式训练、分布式执行的多智能体强化学习框架示意图;
[0021]图3为本专利技术实施例中时隙划分示意图。
[0022]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]另外,本专利技术各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围之内。
[0025]无特殊说明,所使用的药品/试剂均为市售。
[0026]本专利技术提出一种基于多智能体强化学习的分布式动态频谱接入方法,如图1所示,包括以下步骤:
[0027]101:将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型,并构建集中式训练、分布式执行的多智能体强化学习框架(如图2所示);该多智能体强化学习框架包括离线训练模块和在线执行模块。
[0028]102:根据认知用户自身的窄带感知能力,获取局部频谱占用信息;
[0029]103:根据所述局部频谱占用信息,通过训练好的在线执行模块,利用学习到的接
入策略进行认知用户的频谱接入;
[0030]104:实时监测认知用户的接入成功率,当成功率低于阈值时,离线训练模块对在线执行模块进行重新训练,以自主适应各种通信环境。
[0031]本专利技术将认知无线网络的多用户分布式动态频谱接入问题建模成多智能体马尔科夫博弈过程,根据多智能体马尔科夫合作博弈模型,构建集中式训练、分布式执行的多智能体强化学习框架,该多智能体强化学习框架包括离线训练模块和在线执行模块,在线执行模块利用学习到的接入策略进行认知用户的频谱接入,而离线训练模块则根据实时监测结果对在线执行模块进行动态的更新。本专利技术提供了一种通信环境自主适应、网络规模可扩展的多用户协作频谱接入方法,在避免对授权用户的干扰时,减少认知用户之间的接入冲突,从而最大化认知用户的接入成功率,提高频谱的利用效率。
[0032]在其中一个实施例中,对于步骤101,离线训练模块包括集中训练器,该集中训练器通过网络边缘计算服务器(如小基站、无线接入点或无人机辅助边缘计算服务器等)进行构建。
[0033]该在线执行模块包括策略网络,该策略网络加载在认知用户端。
[0034]多智能体强化学习框架为集中式训练、分布式执行的多智能体强化学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的分布式动态频谱接入方法,其特征在于,包括以下步骤:将多用户分布式动态频谱接入问题建模成多智能体马尔科夫合作博弈模型,并构建集中式训练、分布式执行的多智能体强化学习框架;所述多智能体强化学习框架包括离线训练模块和在线执行模块;根据认知用户自身的窄带感知能力,获取局部频谱占用信息;根据所述局部频谱占用信息,通过训练好的在线执行模块,利用学习到的接入策略进行认知用户的频谱接入;实时监测认知用户的接入成功率,当成功率低于阈值时,离线训练模块对在线执行模块进行重新训练,以自主适应各种通信环境。2.如权利要求1所述的基于多智能体强化学习的分布式动态频谱接入方法,其特征在于,所述离线训练模块包括集中训练器,所述集中训练器通过网络边缘计算服务器进行构建;所述在线执行模块包括策略网络,所述策略网络加载在认知用户端。3.如权利要求2所述的基于多智能体强化学习的分布式动态频谱接入方法,其特征在于,所述离线训练模块通过公共信道收集认知用户与无线环境的交互信息,利用收集到的交互信息给每个认知用户训练一个相互协作的策略网络,并将训练好的策略网络参数通过公共信道发送给对应的认知用户以更新对应认知用户端策略网络的参数。4.如权利要求1所述的基于多智能体强化学习的分布式动态频谱接入方法,其特征在于,实时监测认知用户的接入成功率,包括:根据认知用户的频谱接入情况,利用多智能体强化学习框架输出当次频谱接入的奖励值;根据所述奖励值实时监测认知用户的接入成功率。5.如权利要求4所述的基于多智能体强化学习的分布式动态频谱接入方法,其特征在于,根据认知用户的频谱接入情况,利用多智能体强化学习框架输出当次频谱接入的奖励值,包括:将所有认知用户的接入成功次数相加作为每个...

【专利技术属性】
技术研发人员:周力谭翔魏急波赵海涛熊俊高文颖唐麒张姣曹阔刘潇然
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1