基于深度强化学习的无人机辅助弹性视频多播方法技术

技术编号:27691675 阅读:22 留言:0更新日期:2021-03-17 04:44
本发明专利技术提出一个基于深度强化学习的无人机辅助弹性视频多播方法。本方法结合SVC编码,将无人机动态部署和资源分配问题联合考虑,目的是最大化用户整体的增强层接收层数。考虑到宏基站覆盖范围内用户的移动会使网络拓扑结构发生改变,传统的启发式算法难以应对用户移动的复杂性。对此,采用基于深度强化学习的DDPG算法训练神经网络来决策无人机的最佳部署位置和带宽资源分配比重。在模型收敛后,学习代理可以在较短的时间内找到最优的无人机部署和带宽分配策略。仿真结果表明,本方案达到了预期目标并且优于采用现有的基于Q‑learning的方案。

【技术实现步骤摘要】
基于深度强化学习的无人机辅助弹性视频多播方法
本专利技术属于计算机
,具体是一种基于深度强化学习的无人机辅助弹性视频多播方法。
技术介绍
近年来,视频流量的快速增长加剧了无线网络资源的紧缺,为了保证用户的视频质量,前人在异构网络的基础上做出了诸多尝试。多播是有效利用无线网络资源的技术之一[1],是一种同时将数据传输到一组终端设备的可行有效的解决方案。多播使得请求同一视频资源的用户共享频谱资源。当多播组中用户都能正确接收到数据时,多播组中信道条件最差的用户成为了制约系统性能的关键。为了满足不同用户的视频质量需求,将可伸缩视频编码(ScaleVideoCoding,SVC)技术引入到无线视频多播中。采用SVC编码将视频分为一个基础层和多个增强层。用户可以根据不同的信道条件接收增强层,信道条件好的用户可以接收基础层和更多的增强层。虽然引入多播和SVC编码能够有效利用网络资源,但不能减少宏基站的压力。为了缓解宏基站(MacroBaseStation,MBS)的压力,在异构蜂窝网络中引入了小型固定基站(small-cellbasestation)[2],然而在现有的研究文献中小型基站的部署主要基于对通信量长期时空分布的预测。对于不可预知的时空分布,固定基站在服务移动用户时缺乏灵活性,导致用户整体的视频质量下降。近期的一些工作提出在常规网络中部署无人机基站(Drone-mountedBaseStation,DBS)[3-5],以增强无线网络的效率和灵活性[6]。在用户的位置难以预测和无法被宏基站覆盖的情况下,无人机基站可以提供支持。这些案例包括对农村地区的覆盖、协助宏基站解决网络拥堵和大型公共活动等[6-8]。不同于传统的小型固定基站,无人机移动基站能够更快、更廉价的部署。文献[9]考虑了用户对延迟的容忍和敏感程度,提出了一种无人机的三维定位算法,还研究了用户-基站关联和无线回程的带宽的分配问题,以最大程度地提高网络效用。文献[6]研究了无人机基站的下行覆盖性能。在无人机辅助的无线网络下,无人机的位置部署和轨迹设计影响着系统的整体覆盖性能。然而,现有的无人机部署和资源分配机制很少从用户移动角度考虑无人机位置和资源分配。因此,有必要设计终端设备移动性感知的无人机动态部署方法,促进资源优化配置。
技术实现思路
为了解决上述技术问题,本专利技术提出一种基于深度强化学习的无人机辅助弹性视频多播方法,是在宏基站和及其从属基站组成的异构无线网络中,从属基站是以可移动的无人机为载体的无人机基站;宏基站和无人机基站各自服务其覆盖范围内的多播组;基于SVC编码将流媒体视频资源分割为基础层和增强层,基础层由宏基站向多播组提供,增强层由宏基站和无人机基站联合提供,其中,无人机基站为偏远位置的移动用户提供增强层;用户首先收到宏基站的基础层,再根据自身所处的位置和视频接收速率决定从属,接收宏基站或无人机基站提供的增强层;无人机基站和宏基站的增强层覆盖效率与无人机部署位置和资源分配相关,在基站覆盖范围内,对无人机基站的动态部署和资源分配进行优化;所述无人机基站的动态部署和资源分配联合优化包括基础层资源分配优化和增强层资源分配优化;首先对基础层资源分配和增强层资源分配的优化问题建模;然后采用基于DDPG算法的DDPG-UAV算法根据移动用户的位置分布来进行无人机基站动态部署和带宽分配优化,最终获得无人机基站的位置和带宽资源分配。本方法是一种异构网络下无人机基站辅助的弹性视频多播方法,它结合SVC编码,将无人机动态部署和资源分配问题联合考虑,目的是最大化用户整体的增强层接收层数。考虑到宏基站覆盖范围内用户的移动会使网络拓扑结构发生改变,传统的启发式算法难以应对用户移动的复杂性。对此,采用基于深度强化学习的DDPG算法训练神经网络来决策无人机的最佳部署位置和带宽资源分配比重。在模型收敛后,学习代理可以在较短的时间内找到最优的无人机部署和带宽分配策略。仿真结果表明,本文提出的方案达到了预期目标并且优于采用现有的基于Q-learning的方案。附图说明图1是网络系统架构图2是DDPG-UAV算法执行架构图3是Actor网络结构图4是Critic网络结构图5是训练趋势图6是接收到两层的平均用户数图7是平均PSNR的核密度估计和累积分布图8是Reward超参数性能比较图9是无人机轨迹图10是无人机分布热度。具体实施方式下面结合附图与具体实施方式对本案进一步说明,第一部分对本专利技术技术方案进行概述。第二部分描述了系统模型。第三部分提出无人机部署和资源分配联合优化问题。第四节提出了无人机部署位置和资源分配策略。第五部分阐述仿真实验设计和性能评估。第六部分给出了结论。1、方案总述:本文提出一种无人机基站辅助的弹性视频多播方法。基于SVC编码,将流媒体视频资源分割为多层,基础层由宏基站向多播组提供,增强层由宏基站和无人机基站联合提供。无人机位置和资源分配决定了无人机基站和宏基站的增强层覆盖效率。在基站覆盖范围内,为了最大化用户整体的增强层接收层数,综合无人机动态部署和资源分配,提出联合优化问题。对面向SVC视频分发的资源分配和无人机部署联合优化问题进行建模。在求解优化问题时,考虑传统启发式算法的计算复杂度和时间延迟,设计基于深度强化学习的DDPG(DeepDeterministicPolicyGradient)算法[11]并训练神经网络。该神经网络根据移动用户的位置分布进行决策,获得无人机的位置和带宽资源分配。为提高训练稳定性、加快模型收敛和优化目标,提供三种代表性的神经网络结构。仿真实验结果表明,该无人机部署和资源分配策略可以达到预期目标并且优于现有的基于Q-learning[12]的方案。2系统模型2.1视频分发网络架构如图1所示,本例考虑一个由单个宏基站和单个无人机移动基站组成的异构无线网络。宏基站和无人机基站各自服务其覆盖范围内的多播组。将视频的SVC编码分为基础层和增强层两层,宏基站提供基础层和增强层,无人机基站(从属的基站)为位置相对偏远的移动用户提供增强层,用户首先收到宏基站的基础层,再根据所处的位置和视频接收速率决定从属,接收无人机基站提供的增强层。宏基站覆盖范围内的用户随时间不断运动。在时间点t时,系统假定用户处于静止状态。随时间不断变化的用户分布便可被分割为一个个连续时间点下的静态分布。通过当前的静态用户分布,系统根据当前用户位置和上一个时间点的环境状态决策当前无人机的位置和资源分配策略。当进入下一个时间点t+1,用户位置分布发生改变,系统再次进行决策,从而为移动用户提供自适应服务。设用户集合为总带宽资源为B,系统首先分配带宽Bb来向用户多播组提供基础层,将剩余带宽资源B-Bb分为Bm和Bd,Bm分配给宏基站投递增强层,Bd分配给无人机基站投递增强层。2.2通信模型无人机基站d和移动用户i之间的无线传播信道可以由LoS(Lineo本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的无人机辅助弹性视频多播方法,其特征是在宏基站和及其从属基站组成的异构无线网络中,从属基站是以可移动的无人机为载体的无人机基站;宏基站和无人机基站各自服务其覆盖范围内的多播组;/n基于SVC编码将流媒体视频资源分割为基础层和增强层,基础层由宏基站向多播组提供,增强层由宏基站和无人机基站联合提供,其中,无人机基站为偏远位置的移动用户提供增强层;用户首先收到宏基站的基础层,再根据自身所处的位置和视频接收速率决定从属,接收宏基站或无人机基站提供的增强层;/n无人机基站和宏基站的增强层覆盖效率与无人机部署位置和资源分配相关,在基站覆盖范围内,对无人机基站的动态部署和资源分配进行优化;/n所述无人机基站的动态部署和资源分配联合优化包括基础层资源分配优化和增强层资源分配优化;首先对基础层资源分配和增强层资源分配的优化问题建模;然后采用基于DDPG算法的DDPG-UAV算法根据移动用户的位置分布来进行无人机基站动态部署和带宽分配优化,最终获得无人机基站的位置和带宽资源分配。/n

【技术特征摘要】
1.一种基于深度强化学习的无人机辅助弹性视频多播方法,其特征是在宏基站和及其从属基站组成的异构无线网络中,从属基站是以可移动的无人机为载体的无人机基站;宏基站和无人机基站各自服务其覆盖范围内的多播组;
基于SVC编码将流媒体视频资源分割为基础层和增强层,基础层由宏基站向多播组提供,增强层由宏基站和无人机基站联合提供,其中,无人机基站为偏远位置的移动用户提供增强层;用户首先收到宏基站的基础层,再根据自身所处的位置和视频接收速率决定从属,接收宏基站或无人机基站提供的增强层;
无人机基站和宏基站的增强层覆盖效率与无人机部署位置和资源分配相关,在基站覆盖范围内,对无人机基站的动态部署和资源分配进行优化;
所述无人机基站的动态部署和资源分配联合优化包括基础层资源分配优化和增强层资源分配优化;首先对基础层资源分配和增强层资源分配的优化问题建模;然后采用基于DDPG算法的DDPG-UAV算法根据移动用户的位置分布来进行无人机基站动态部署和带宽分配优化,最终获得无人机基站的位置和带宽资源分配。


2.根据权利要求1所述的基于深度强化学习的无人机辅助弹性视频多播方法,其特征是在宏基站和及其从属基站组成的异构无线网络中,宏基站覆盖范围内的用户随时间不断运动;在某个时间点t时,设移动用户i处于静止状态;随时间不断变化的用户分布被分割为一个个连续时间点下的静态分布;通过当前的静态用户分布,根据当前的用户位置和上一个时间点的环境状态决策当前无人机的位置和资源分配;
当进入下一个时间点t+1,用户位置分布发生改变,则再次进行决策此时无人机的位置和资源分配;
当进入下一个时间点t+1,用户位置分布发生改变,系统再次进行决策,从而为移动用户提供自适应服务;
设用户集合为总带宽资源为B,首先分配带宽Bb来向用户多播组提供基础层,将剩余带宽资源B-Bb分为Bm和Bd,Bm分配给宏基站投递增强层,Bd分配给无人机基站投递增强层;
在本异构无线网络中的通信模型为:
设无人机基站d和移动用户i之间的无线传播信道由LineofSight直达波LoS概率信道来建模,则无人机基站d和用户i之间LoS连接的概率为



θi为arctan是用户i到无人机基站的仰角,hd是无人机基站的高度,vi是用户i与无人机基站之间的水平距离;
用户i和无人机基站d之间的LoS连接路径损失为



用户i和无人机基站d之间的NLoS连接路径损失为



ξ(los)和γ(los)分别为LoS连接下参考距离的路径损耗补偿和路径损耗指数;
ξ(nlos)和γ(nlos)分别为NoneLineofSight非直达波NLoS连接下参考距离的路径损耗补偿和路径损耗指数;

表示无人机基站和用户i之间的三维距离;
无人机基站和用户i之间的平均路径损耗ld,i为
ld,i=p(los)·η(los)+(1-p(los))·η(nlos)(4)
信道增益gd,i为




3.根据权利要求2所述的基于深度强化学习的无人机辅助弹性视频多播方法,其特征是所述无人机基站的动态部署和资源分配联合优化步骤为:
1)基础层资源分配
在宏基站覆盖范围内请求视频的用户都要从宏基站处获得基础层,设被请求视频资源基础层接收速率为γ0,基于节省分配的带宽并满足基础层接收速率要求,计算出投递基础层所要分配的最小带宽;令ηm,i为宏基站m到用户i之间的平均路径损失



zm,i是用户i与宏基站m的水平距离,hm为宏基站m的高度;
宏基站m与用户i之间的信道增益表示为



因为基础层多播组的信道增益由该分组内信道增益最差的用户决定,则有



根据香农公式,投递基础层所需要的带宽为



pm为宏基站m的发射功率,σ2为高斯噪声;
2)增强层资源分配
增强层由宏基站和无人机基站联合提供,无人机基站为宏基站无法覆盖的用户提供服务;令增强层的接收速率为γ1,根据式(1)和(2)以及香农公式,用户i到宏基站m的信道容量为



ld,i代表无人机基站d和用户i之间的路径损失,计算为
ld,i=p(los)·η(los)+(1-p(los))·η(nlos)(11)
gd,i代表信道增益,计算为


<...

【专利技术属性】
技术研发人员:沈航汪悦成昭炜白光伟王敏王天荆
申请(专利权)人:南京工业大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1