基于深度强化学习的无人机辅助弹性视频多播方法技术

技术编号：27691675 阅读：22 留言：0更新日期：2021-03-17 04:44

本发明专利技术提出一个基于深度强化学习的无人机辅助弹性视频多播方法。本方法结合SVC编码，将无人机动态部署和资源分配问题联合考虑，目的是最大化用户整体的增强层接收层数。考虑到宏基站覆盖范围内用户的移动会使网络拓扑结构发生改变，传统的启发式算法难以应对用户移动的复杂性。对此，采用基于深度强化学习的DDPG算法训练神经网络来决策无人机的最佳部署位置和带宽资源分配比重。在模型收敛后，学习代理可以在较短的时间内找到最优的无人机部署和带宽分配策略。仿真结果表明，本方案达到了预期目标并且优于采用现有的基于Q‑learning的方案。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的无人机辅助弹性视频多播方法
本专利技术属于计算机
，具体是一种基于深度强化学习的无人机辅助弹性视频多播方法。
技术介绍
近年来，视频流量的快速增长加剧了无线网络资源的紧缺，为了保证用户的视频质量，前人在异构网络的基础上做出了诸多尝试。多播是有效利用无线网络资源的技术之一[1]，是一种同时将数据传输到一组终端设备的可行有效的解决方案。多播使得请求同一视频资源的用户共享频谱资源。当多播组中用户都能正确接收到数据时，多播组中信道条件最差的用户成为了制约系统性能的关键。为了满足不同用户的视频质量需求，将可伸缩视频编码(ScaleVideoCoding,SVC)技术引入到无线视频多播中。采用SVC编码将视频分为一个基础层和多个增强层。用户可以根据不同的信道条件接收增强层，信道条件好的用户可以接收基础层和更多的增强层。虽然引入多播和SVC编码能够有效利用网络资源，但不能减少宏基站的压力。为了缓解宏基站(MacroBaseStation,MBS)的压力，在异构蜂窝网络中引入了小型固定基站(small-cellbasestation)[2]，然而在现有的研究文献中小型基站的部署主要基于对通信量长期时空分布的预测。对于不可预知的时空分布，固定基站在服务移动用户时缺乏灵活性，导致用户整体的视频质量下降。近期的一些工作提出在常规网络中部署无人机基站(Drone-mountedBaseStation,DBS)[3-5]，以增强无线网络的效率和灵活性[6]。在用户的位置难以预测和无法被宏基站覆盖的情况下，无人机...

【技术保护点】
1.一种基于深度强化学习的无人机辅助弹性视频多播方法，其特征是在宏基站和及其从属基站组成的异构无线网络中，从属基站是以可移动的无人机为载体的无人机基站；宏基站和无人机基站各自服务其覆盖范围内的多播组；/n基于SVC编码将流媒体视频资源分割为基础层和增强层，基础层由宏基站向多播组提供，增强层由宏基站和无人机基站联合提供，其中，无人机基站为偏远位置的移动用户提供增强层；用户首先收到宏基站的基础层，再根据自身所处的位置和视频接收速率决定从属，接收宏基站或无人机基站提供的增强层；/n无人机基站和宏基站的增强层覆盖效率与无人机部署位置和资源分配相关，在基站覆盖范围内，对无人机基站的动态部署和资源分配进行优化；/n所述无人机基站的动态部署和资源分配联合优化包括基础层资源分配优化和增强层资源分配优化；首先对基础层资源分配和增强层资源分配的优化问题建模；然后采用基于DDPG算法的DDPG-UAV算法根据移动用户的位置分布来进行无人机基站动态部署和带宽分配优化，最终获得无人机基站的位置和带宽资源分配。/n

【技术特征摘要】
1.一种基于深度强化学习的无人机辅助弹性视频多播方法，其特征是在宏基站和及其从属基站组成的异构无线网络中，从属基站是以可移动的无人机为载体的无人机基站；宏基站和无人机基站各自服务其覆盖范围内的多播组；
基于SVC编码将流媒体视频资源分割为基础层和增强层，基础层由宏基站向多播组提供，增强层由宏基站和无人机基站联合提供，其中，无人机基站为偏远位置的移动用户提供增强层；用户首先收到宏基站的基础层，再根据自身所处的位置和视频接收速率决定从属，接收宏基站或无人机基站提供的增强层；
无人机基站和宏基站的增强层覆盖效率与无人机部署位置和资源分配相关，在基站覆盖范围内，对无人机基站的动态部署和资源分配进行优化；
所述无人机基站的动态部署和资源分配联合优化包括基础层资源分配优化和增强层资源分配优化；首先对基础层资源分配和增强层资源分配的优化问题建模；然后采用基于DDPG算法的DDPG-UAV算法根据移动用户的位置分布来进行无人机基站动态部署和带宽分配优化，最终获得无人机基站的位置和带宽资源分配。

2.根据权利要求1所述的基于深度强化学习的无人机辅助弹性视频多播方法，其特征是在宏基站和及其从属基站组成的异构无线网络中，宏基站覆盖范围内的用户随时间不断运动；在某个时间点t时，设移动用户i处于静止状态；随时间不断变化的用户分布被分割为一个个连续时间点下的静态分布；通过当前的静态用户分布，根据当前的用户位置和上一个时间点的环境状态决策当前无人机的位置和资源分配；
当进入下一个时间点t+1，用户位置分布发生改变，则再次进行决策此时无人机的位置和资源分配；
当进入下一个时间点t+1，用户位置分布发生改变，系统再次进行决策，从而为移动用户提供自适应服务；
设用户集合为总带宽资源为B，首先分配带宽Bb来向用户多播组提供基础层，将剩余带宽资源B-Bb分为Bm和Bd，Bm分配给宏基站投递增强层，Bd分配给无人机基站投递增强层；
在本异构无线网络中的通信模型为：
设无人机基站d和移动用户i之间的无线传播信道由LineofSight直达波LoS概率信道来建模，则无人机基站d和用户i之间LoS连接的概率为

θi为arctan是用户i到无人机基站的仰角，hd是无人机基站的高度，vi是用户i与无人机基站之间的水平距离；
用户i和无人机基站d之间的LoS连接路径损失为

用户i和无人机基站d之间的NLoS连接路径损失为

ξ(los)和γ(los)分别为LoS连接下参考距离的路径损耗补偿和路径损耗指数；
ξ(nlos)和γ(nlos)分别为NoneLineofSight非直达波NLoS连接下参考距离的路径损耗补偿和路径损耗指数；

表示无人机基站和用户i之间的三维距离；
无人机基站和用户i之间的平均路径损耗ld，i为
ld,i＝p(los)·η(los)+(1-p(los))·η(nlos)(4)
信道增益gd，i为

。

3.根据权利要求2所述的基于深度强化学习的无人机辅助弹性视频多播方法，其特征是所述无人机基站的动态部署和资源分配联合优化步骤为：
1)基础层资源分配
在宏基站覆盖范围内请求视频的用户都要从宏基站处获得基础层，设被请求视频资源基础层接收速率为γ0，基于节省分配的带宽并满足基础层接收速率要求，计算出投递基础层所要分配的最小带宽；令ηm，i为宏基站m到用户i之间的平均路径损失

zm，i是用户i与宏基站m的水平距离，hm为宏基站m的高度；
宏基站m与用户i之间的信道增益表示为

因为基础层多播组的信道增益由该分组内信道增益最差的用户决定，则有

根据香农公式，投递基础层所需要的带宽为

pm为宏基站m的发射功率，σ2为高斯噪声；
2)增强层资源分配
增强层由宏基站和无人机基站联合提供，无人机基站为宏基站无法覆盖的用户提供服务；令增强层的接收速率为γ1，根据式(1)和(2)以及香农公式，用户i到宏基站m的信道容量为

ld，i代表无人机基站d和用户i之间的路径损失，计算为
ld,i＝p(los)·η(los)+(1-p(los))·η(nlos)(11)
gd，i代表信道增益，计算为

<...

【专利技术属性】
技术研发人员：沈航，汪悦，成昭炜，白光伟，王敏，王天荆，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人