一种基于强化学习的空地一体化网络资源优化方法及存储介质技术

技术编号：41238723 阅读：2 留言：0更新日期：2024-05-09 23:51

本发明专利技术公开一种基于强化学习的空地一体化网络资源优化方法及存储介质，属于通信网络资源分配技术领域。方法包括，在UAV服务区域内的每个用户本地构建DQN网络并初始化后，当接收到用户业务请求，则获取业务请求特征参数和系统可用资源参数等数据进行预处理；然后利用DQN网络基于预处理后的数据进行决策，得到向UAV的卸载任务比例和卸载功率，并预分配频谱和计算资源；按照卸载任务比例将相应部分的业务请求任务数据卸载至UAV，从UAV获取处理完成的数据，最后将本地处理结果与从UAV获取的数据进行整合。本发明专利技术能够在满足多边缘节点系统中用户业务请求的服务系统频谱资源和计算资源能量约束的下，最优化系统时延。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通信网络资源分配，特别是一种基于强化学习的空地一体化网络资源优化方法及存储介质。

技术介绍

1、在过去几十年中，迅猛发展的通信技术深刻地改变了人们的交流方式，不断影响着人类社会的连接方式。未来的网络需要提供比现有网络更多的资源，以满足各种业务日益增长的流量需求，为支持物联网(iot)、云计算和大数据等新兴应用，正在提出和实施下一代移动系统的新标准和技术。然而，受限于网络容量和覆盖范围，仅依赖地面通信系统无法在某些区域提供高数据速率和可靠性的无线接入业务，尤其是在海洋和山区等环境恶劣的地区。因此，开发新的网络架构以适应各种场景下不同服务质量(qos)要求的各种业务和应用是势在必行的。

2、近年来，大数据、机器学习和人工智能取得了引人注目的进展，成功实现了领域包括自然语言理解和目标检测在内的最先进技术。高科技已经深入渗透到人们生活的各个领域，使得机器学习成为当前人工智能研究的焦点。通常，机器学习算法首先会通过采集现有的数据集进行训练，通过自主学习其中的相关信息，以实现分类或预测的目标。其中dqn是一种深度强化学习算法，它使用神经网络来学习q值函数。它是一个将状态和行动映射到q值的函数，表示通过执行该行动在特定状态下获得的预期回报。但传统的q-learning等强化学习算法无法处理高维状态空间和动作空间问题，而dqn利用神经网络能够更好地解决这些问题。

技术实现思路

1、本专利技术的目的是提供一种空地一体化网络资源优化方法及存储介质，考虑空地一体化网络大范围的异

2、一方面，本专利技术提供一种空地一体化网络资源分配方法，空地一体化网络包括空中服务设备和位于所述空中服务设备的服务范围内的地面移动设备，方法由各所述地面移动设备执行，包括：

3、响应于接收到用户业务请求，则获取业务请求特征参数和空地一体化网络系统的可用资源参数数据；

4、基于所述业务请求特征参数和可用资源参数数据，利用预先训练的网络资源分配模型，得到针对当前用户业务请求的业务响应策略，所述业务响应策略包括卸载至所述空中服务设备的卸载任务比例和卸载功率；

5、根据所述卸载任务比例将相应部分的业务请求任务数据卸载至所述空中服务设备，并利用本地计算资源处理剩余业务请求任务；

6、从所述空中服务设备获取处理结果，与本地处理结果进行整合，得到针对当前用户业务请求的全部处理结果数据。

7、可选的，方法还包括，对所获取的业务请求特征参数和所述可用资源参数数据进行预处理，将预处理结果数据作为所述网络资源分配模型的输入数据；

8、其中，所述可用资源参数数据包括空地一体化网络系统中地面用户设备的数量以及各地面用户设备的上下行数据传输功率、信道增益和噪声功率；所述预处理结果数据包括业务请求对应的任务量，本地最大发射速率、最大下载速率和cpu功率等。所述预处理包括数据清理、归一化等操作，以确保输入数据一致性和准确性，还包括对用作网络资源分配模型输入数据的计算。

9、可选的，所述本地最大发射速率和最大下载速率的计算公式分别为：

10、

11、

12、其中，分别表示地面用户设备m的最大发射速率和最大下载功率，b为带宽，表示地面用户设备m到空中服务设备传输数据的信噪比，表示空中服务设备到地面用户设备m传输数据的信噪比，且有，若将地面用户设备集m中的n个地面用户设备的信道增益按照|g1|≤|g2|≤···≤|gn|排序，则：

13、

14、

15、

16、其中，hm表示地面用户设备m到空中服务设备的信道增益，σ表示噪声功率，分别表示地面用户设备m的上行、下行数据传输功率。

17、可选的，所述网络资源分配模型采用dqn网络，智能体的动作参数包括地面用户设备卸载至所述空中服务设备的卸载任务比例和卸载功率，环境状态参数包括地面用户设备接收到的业务请求对应的任务量，地面用户设备的最大发射速率、最大下载速率、最大能量消耗和cpu功率。

18、dqn通过使用目标网络和经验回放，能够更好地平衡估计误差和方差，提高算法的收敛性。这使得dqn能够更快地学习到最优策略。

19、可选的，所述网络资源分配模型基于空地一体化网络系统优化模型进行业务响应策略的计算，所述空地一体化网络系统优化模型表示为：

20、

21、

22、

23、

24、

25、其中，tm表示地面用户设备m完成任务的时间，第一项约束表示卸载任务占比αm的范围，第二、三项约束表示地面用户设备m的上行、下行功率的范围，第四项约束表示每个移动用户的能量消耗被限制在最大能量消耗以内，分别表示地面用户设备m向空中服务设备卸载任务的能耗和地面用户设备m的本地计算能耗。

26、可选的，地面用户设备m完成任务的时间tm表示为：

27、

28、其中，分别表示地面用户设备m向空中服务设备卸载任务的任务卸载时间，表示空中服务设备完成计算后的处理结果回传时间，表示地面用户设备m的本地计算时间，计算公式分别为：

29、

30、

31、

32、其中，nm是地面用户设备m的任务输入比特数，分别表示地面用户设备m的上行和下载数据传输速率，cm表示地面用户设备m计算任务的一个比特所需的cpu周期数，表示本地服务器的cpu频率。

33、在空地一体化网络系统中，由于地面用户设备与空中服务设备之间传输数据的速率受到两者间信噪比的影响，而任一地面用户设备接收空中服务设备的信噪比受到信道质量比其较差其它所有地面用户设备下行传输速率的影响，任一地面用户设备向空中服务设备卸载任务数据的信噪比受到信道质量比其较好的其它所有地面用户设备上行传输速率的影响，因此当各地面用户设备均执行本地tm优化计算进而决策任务卸载比例和功率时，可以使得系统全局中完成任务时间最久的地面用户设备能够以更短的时间完成任务，即达到空地一体化网络系统全局的优化。

34、可选的，地面用户设备m的本地计算能耗的计算公式为：

35、

36、其中，表示本地服务器的cpu功率，且有σ表示噪声功率；

37、地面用户设备m向空中服务设备卸载任务的能耗的计算公式为：

38、

39、可选的，所述网络资源分配模型的dqn网络训练方法包括：

40、1)初始化dqn网络的参数，包括学习率、折扣因子和经验回放缓冲区大小等；

41、2)初始化环境参数，并确定智能体的初始状态；

42、3)遵从ε-greedy策略以1-ε的概率随机选择动作，以ε的概率选择当前q值最大的动作，所述动作包括包括卸载任务占比及发射功率，

43、本文档来自技高网...

【技术保护点】

1.一种空地一体化网络资源优化方法，空地一体化网络包括空中服务设备和位于所述空中服务设备的服务范围内的地面移动设备，方法由各所述地面移动设备执行，其特征是，方法包括：

2.根据权利要求1所述的方法，其特征是，还包括，对所获取的业务请求特征参数和所述可用资源参数数据进行预处理，将预处理结果数据作为所述网络资源分配模型的输入数据。

3.根据权利要求2所述的方法，其特征是，所述可用资源参数数据包括空地一体化网络系统中地面用户设备的数量以及各地面用户设备的上下行数据传输功率、信道增益和噪声功率；所述预处理结果数据包括业务请求对应的任务量，本地最大发射速率、最大下载速率和CPU功率。

4.根据权利要求3所述的方法，其特征是，所述本地最大发射速率和最大下载速率的计算公式分别为：

5.根据权利要求3所述的方法，其特征是，所述网络资源分配模型采用DQN网络，智能体的动作参数包括地面用户设备卸载至所述空中服务设备的卸载任务比例和卸载功率，环境状态参数包括地面用户设备接收到的业务请求对应的任务量，地面用户设备的最大发射速率、最大下载速率、最大能量消耗和CPU功率。

6.根据权利要求1-5任一项所述的方法，其特征是，所述网络资源分配模型基于空地一体化网络系统优化模型进行业务响应策略的计算，所述空地一体化网络系统优化模型表示为：

7.根据权利要求6所述的方法，其特征是，地面用户设备m完成任务的时间Tm表示为：

8.根据权利要求6所述的方法，其特征是，地面用户设备m的本地计算能耗的计算公式为：

9.根据权利要求6所述的方法，其特征是，所述网络资源分配模型的DQN网络训练方法包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该计算机程序被处理器执行时，实现如权利要求1-9中任一所述的空地一体化网络资源优化方法。

...

【技术特征摘要】

3.根据权利要求2所述的方法，其特征是，所述可用资源参数数据包括空地一体化网络系统中地面用户设备的数量以及各地面用户设备的上下行数据传输功率、信道增益和噪声功率；所述预处理结果数据包括业务请求对应的任务量，本地最大发射速率、最大下载速率和cpu功率。

4.根据权利要求3所述的方法，其特征是，所述本地最大发射速率和最大下载速率的计算公式分别为：

5.根据权利要求3所述的方法，其特征是，所述网络资源分配模型采用dqn网络，智能体的动作参数包...

【专利技术属性】
技术研发人员：唐楚杰，秦鹏，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人