一种基于深度强化学习DDPG算法的D2D用户资源分配方法组成比例

技术编号：21310305 阅读：42 留言：0更新日期：2019-06-12 11:26

本发明专利技术公开了一种基于深度强化学习DDPG算法的D2D用户资源分配方法，本发明专利技术利用蜂窝用户和D2D用户相关信息，利用深度强化学习方法获得了最优的D2D用户信道分配和发射功率联合优化策略，D2D用户通过选择合适的发射功率和分配信道，来降低对蜂窝用户的干扰，同时最大化自身的信息速率，在不影响蜂窝用户QoS的情况下实现了高效资源分配，提高了蜂窝网络的吞吐量，符合绿色通信的要求。DDPG算法有效解决D2D用户信道分配和功率控制的联合优化问题，不仅在一系列连续动作空间的优化中表现稳定，而且求得最优解所需要的时间步也远远少于DQN，与基于值函数的DRL方法相比，基于AC框架的深度策略梯度方法优化策略效率更高、求解速度更快。

A DDPG-based resource allocation method for D2D users based on deep reinforcement learning

The invention discloses a method of D2D user resource allocation based on deep reinforcement learning DDPG algorithm. The method utilizes relevant information of cellular users and D2D users, and uses deep reinforcement learning method to obtain the optimal joint optimization strategy of channel allocation and transmission power for D2D users. D2D users reduce interference to cellular users by choosing appropriate transmission power and channel allocation. It maximizes its own information rate, achieves efficient resource allocation without affecting the quality of service of cellular users, improves the throughput of cellular networks, and meets the requirements of green communication. DDPG algorithm effectively solves the joint optimization problem of channel allocation and power control for D2D users. It not only performs stably in a series of continuous action space optimization, but also takes much less time to obtain the optimal solution than DQN. Compared with DRL method based on value function, the depth strategy gradient method based on AC framework has higher efficiency and faster solving speed.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习DDPG算法的D2D用户资源分配方法
本专利技术属于无线通信
，更具体地，涉及一种基于深度强化学习DDPG算法的D2D用户资源分配方法。
技术介绍
随着无线通信本地业务的日益增长，蜂窝网络承载压力越来越大。终端直接通信(D2D，Device-to-Device)技术作为5G通信关键技术之一，允许临近终端在基站的控制下，互相之间直接进行数据共用，形成数据共用网络，共用蜂窝网络的信道资源以达到减轻基站负担、提升频谱利用率、提高系统吞吐量的目的。D2D通信是一种允许终端之间通过共用小区资源直接进行通信的新型技术，它能够增加蜂窝系统的频谱利用效率、减轻蜂窝小区基站的负荷、降低终端发射功率、提升系统整体吞吐量，在一定程度上解决无线通信系统频谱资源匮乏的问题。D2D用户可以采用三种模式进行通信：①蜂窝模式，该通信模式与传统的蜂窝通信模式一样，即通过基站的中继来实现两用户之间的信息传输。当两个用户的距离较远时，通常会选择蜂窝模式；②专用信道模式，该模式下，两用户直接通信，不需要通过基站中继，使用专用的信道；③共用信道模式，该模式下，两用户直接通信。与专用信道模式不同，共用信道模式下，D2D用户与共用蜂窝用户(CellularUser，CU)共用信道。在D2D通信系统模型中，将D2D技术应用到蜂窝通信网中可以有效卸载基站流量，提高频谱利用率，但是D2D用户在共用蜂窝用户的信道时，会对已经接入的用户造成干扰，影响用户的性能，导致系统性能下降。因此，D2D用户如何自主选择合适的通信信道和发射功率，将直接影响整个通信系统的服务质量。
技术实现思路
针对现有...

【技术保护点】
1.一种基于深度强化学习DDPG算法的D2D用户资源分配方法，其特征在于，所述D2D用户与蜂窝用户之间采用共用信道模式通信，所述方法包括以下步骤：步骤S1.采集D2D用户的可达数据速率和发射功率、蜂窝用户的可达数据速率、D2D用户与蜂窝用户的共用信道信息，并设定蜂窝用户的目标数据速率；步骤S2.根据D2D用户的可达数据速率和发射功率、蜂窝用户的可达数据速率和目标数据速率、D2D用户与蜂窝用户的共用信道信息，建立深度强化学习模型；步骤S3.利用DDPG算法优化深度强化学习模型；步骤S4.根据优化后的深度强化学习模型，得到最优D2D用户发射功率和信道分配策略。

【技术特征摘要】
1.一种基于深度强化学习DDPG算法的D2D用户资源分配方法，其特征在于，所述D2D用户与蜂窝用户之间采用共用信道模式通信，所述方法包括以下步骤：步骤S1.采集D2D用户的可达数据速率和发射功率、蜂窝用户的可达数据速率、D2D用户与蜂窝用户的共用信道信息，并设定蜂窝用户的目标数据速率；步骤S2.根据D2D用户的可达数据速率和发射功率、蜂窝用户的可达数据速率和目标数据速率、D2D用户与蜂窝用户的共用信道信息，建立深度强化学习模型；步骤S3.利用DDPG算法优化深度强化学习模型；步骤S4.根据优化后的深度强化学习模型，得到最优D2D用户发射功率和信道分配策略。2.如权利要求1所述的D2D用户资源分配方法，其特征在于，第m个D2D用户在时刻t的可达数据速率Rm(t)计算公式如下：Rm(t)＝Blog2(1+Γm(t))其中，B为信道带宽，Γm(t)为第m个D2D用户在时刻t的接收SINR，为第m个D2D用户对在时刻t的发射功率，Pc为蜂窝用户的发射功率，hm(t)为组成D2D用户对的D2D用户之间的信道系数，hc(t)为蜂窝用户和与其共用信道的D2D用户之间的信道系数，σ12为蜂窝用户和与其共用信道的D2D用户之间的通信链路中的加性高斯白噪声功率；与第m个D2D用户共用信道的蜂窝用户在时刻t的可达数据速率Rc(t)计算公式如下：Rc(t)＝Blog2(1+Γc(t))其中，B为信道带宽，Γc(t)为与第m个D2D用户共用信道的蜂窝用户在时刻t的接收SINR，为第m个D2D用户对在时刻t的发射功率，Pc为蜂窝用户的发射功率，h′c(t)为蜂窝用户与基站之间的信道系数，h′m(t)为D2D用户与基站之间的信道系数，σ22为D2D用户与基站之间的通信链路中的加性高斯白噪声功率，1≤m≤M，M为基站信号覆盖范围的D2D用户对总个数。3.如权利要求1所述的D2D用户资源分配方法，其特征在于，对于第m个D2D用户对，其在时刻t共用信道信息为：若则第n个信道被蜂窝用户和第m个D2D用户对共用，同时有且i≠n，即M为基站信号覆盖范围的D2D用户对总个数，N为基站可用信道总数。4.如权利要求1所述的D2D用户资源分配方法，其特征在于，建立的深度强化学习模型包括：状态空间为蜂窝用户对服务质量的满意度，在时刻t定义状态为若第m个D2D用户共用第n个信道，则有其中，Rth为蜂窝用户的目标数据速率，Rc(t)为蜂窝用户的可达数据速率，为第m个D2D用户对共用第n条信道时在时刻t的状态；D2D用户的动作空间包括发射功率和共用信道两个变量，表示为：其中，为第m个D2D用户在时刻t的发射功率，为第n个信道被蜂窝用户和第m个D2D用户共用情况；D2D用户的奖励函数为：其中，Rc(t)为蜂...

【专利技术属性】
技术研发人员：李强，张雪艳，楼瀚琼，葛晓虎，肖泳，黄晓庆，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人