一种资源分配方法、装置、设备及介质制造方法及图纸

技术编号:36608453 阅读:18 留言:0更新日期:2023-02-04 18:34
本申请涉及卫星通信领域,具体涉及一种资源分配方法、装置、设备及介质,用于实现卫星互联网无线通信资源的高效利用。该方法应用于通信系统的核心网网元中,通信系统还包括终端、卫星和云计算中心,该方法包括:通过多个第一终端的请求获取多个第一终端的状态信息;状态信息包括多个第一终端接收的任务队列、多个第一终端可选择的发射信道;将状态信息输入已训练的资源分配模型,获得资源分配策略;已训练的资源分配模型是以最小化通信系统的总能耗为优化目标对资源分配模型进行训练得到的;通过卫星将包含资源分配策略的信令发送给多个第一终端,以使多个第一终端按照各自对应的发射信道和发射功率向云计算中心发送各自接收的任务队列。的任务队列。的任务队列。

【技术实现步骤摘要】
一种资源分配方法、装置、设备及介质


[0001]本申请涉及卫星通信领域,具体涉及一种资源分配方法、装置、设备及介质。

技术介绍

[0002]近年来,云网融合已经成为云计算领域的主要发展趋势,云网融合就是在云计算中引入通信网的技术,在通信网中引入云计算的技术。而当前云网融合中的地面通信网络,仍将有80%以上的陆地区域和95%以上的海洋区域无法覆盖,导致云计算服务无法延伸到这些区域。因此现有的云网融合无法实现泛在连接、全球覆盖。卫星互联网作为实现全球、全域、全时、全程信息网络互联互通的新型战略空间基础设施,与云网融合理念结合,可以将云计算服务带向世界的每一个角落。
[0003]当前云网融合的资源分配主要集中在对云计算中心的计算资源和存储资源(例如CPU、存储空间等)的分配调度。卫星互联网无线通信资源十分有限,如何实现无线通信资源的高效利用成为关键问题。

技术实现思路

[0004]本申请实施例提供一种资源分配方法、装置、设备及介质,用于解决如何实现卫星互联网无线通信资源的高效利用的问题。
[0005]第一方面,本申请提供一种资源分配方法,应用于通信系统的核心网网元中,所述通信系统还包括终端、卫星和云计算中心,所述方法包括:
[0006]通过多个第一终端的请求获取所述多个第一终端的状态信息;其中,所述状态信息包括所述多个第一终端接收的任务队列、所述多个第一终端可选择的发射信道;
[0007]将所述状态信息输入已训练的资源分配模型,获得资源分配策略;其中,所述已训练的资源分配模型是以最小化所述通信系统的总能耗为优化目标对资源分配模型进行训练得到的,所述资源分配策略用于指示所述多个第一终端对应的发射信道和发射功率;
[0008]通过所述卫星将包含所述资源分配策略的信令发送给所述多个第一终端,以使所述多个第一终端按照所述资源分配策略向所述云计算中心发送各自接收的任务队列。
[0009]在本专利技术的一个实施例中,所述通信系统的总能耗包括所述多个第一终端的处理能耗、所述多个第一终端与所述卫星之间的传输能耗、以及所述云计算中心的处理能耗。
[0010]在本专利技术的另一个实施例中,在将所述状态信息输入已训练的资源分配模型,获得资源分配策略之前,所述方法还包括:
[0011]从预存的经验回放数据中随机采样获得多条训练数据;其中,所述经验回放数据包括时隙连续的多条数据,每条数据包括当前时隙状态信息、目标动作、奖励、下一时隙状态信息,所述奖励与多个第二终端在所述当前时隙状态信息下执行所述目标动作时所述通信系统的总能耗负相关,所述目标动作包括所述多个第二终端选择对应的发射信道和对应的发射功率;
[0012]基于所述多条训练数据对所述资源分配模型进行训练,获得所述已训练的资源分
配模型。
[0013]在本专利技术的另一个实施例中,所述资源分配模型包括结构相同的第一网络和第二网络;基于所述训练数据对所述资源分配模型进行训练,获得所述已训练的资源分配模型,包括:
[0014]将第一训练数据的当前时隙状态信息和目标动作输入所述第一网络,获得第一结果;其中,所述第一结果表示所述多个第二终端在所述第一训练数据的当前时隙状态信息下执行所述第一训练数据的目标动作的预测价值;
[0015]将所述第一训练数据的下一时隙状态信息输入所述第二网络,获得第二结果;其中,所述第二结果表示所述多个第二终端在所述第一训练数据的下一时隙状态信息下执行多个动作的多个价值中的最大值,所述多个动作为预先建立的动作空间中的动作;
[0016]根据所述第一结果和第三结果之间的误差,更新所述第一网络的参数;其中,所述第三结果表示所述多个第二终端在所述第一训练数据的当前时隙状态信息下执行所述第一训练数据的目标动作的实际价值,所述第三结果与所述第一训练数据的奖励以及所述第二结果正相关;
[0017]当所述第一网络的迭代次数为预设次数的整数倍时,将所述第一网络的参数赋值给所述第二网络,直到所述第二网络的赋值次数达到预设阈值,将所述第二网络作为所述已训练的资源分配模型。
[0018]在本专利技术的另一个实施例中,在从预存的经验回放数据中随机采样获得多条训练数据之前,所述方法还包括:
[0019]根据预设策略从所述多个动作中确定多个时隙状态信息对应的目标动作;
[0020]在所述多个时隙状态信息下执行所述多个时隙状态信息各自对应的目标动作,获得所述多个时隙状态信息各自对应的下一时隙状态信息,根据所述通信系统的总能耗,确定所述多个时隙状态信息各自对应的奖励;
[0021]保存所述多个时隙状态信息、所述多个时隙状态信息各自对应的目标动作、所述多个时隙状态信息各自对应的奖励、所述多个时隙状态信息各自对应的下一时隙状态信息,获得所述经验回放数据。
[0022]第二方面,本申请提供一种资源分配装置,设置于面向卫星互联网的通信系统的核心网网元中,所述通信系统还包括终端、卫星和云计算中心,所述装置包括:
[0023]信息获取模块,用于通过多个第一终端的请求获取所述多个第一终端的状态信息;其中,所述状态信息包括所述多个第一终端接收的任务队列、所述多个第一终端可选择的发射信道;
[0024]策略决策模块,用于将所述状态信息输入已训练的资源分配模型,获得资源分配策略;其中,所述已训练的资源分配模型是以最小化所述通信系统的总能耗为优化目标对资源分配模型进行训练得到的,所述资源分配策略用于指示所述多个第一终端对应的发射信道和发射功率;
[0025]发送模块,用于通过所述卫星将包含所述资源分配策略的信令发送给所述多个终端,以使所述多个第一终端按照所述资源分配策略向所述云计算中心发送各自接收的任务队列。
[0026]在本专利技术的一个实施例中,所述通信系统的总能耗包括所述多个第一终端的处理
能耗、所述多个第一终端与所述卫星之间的传输能耗、以及所述云计算中心的处理能耗。
[0027]在本专利技术的另一个实施例中,所述装置还包括模型训练模块,所述模型训练模块用于:
[0028]在将所述状态信息输入已训练的资源分配模型,获得资源分配策略之前,从预存的经验回放数据中随机采样获得多条训练数据;其中,所述经验回放数据包括时隙连续的多条数据,每条数据包括当前时隙状态信息、目标动作、奖励、下一时隙状态信息,所述奖励与多个第二终端在所述当前时隙状态信息下执行所述目标动作时所述通信系统的总能耗负相关,所述目标动作包括每个第二终端选择对应的发射信道和对应的发射功率;
[0029]基于所述多条训练数据对所述资源分配模型进行训练,获得所述已训练的资源分配模型。
[0030]在本专利技术的另一个实施例中,所述资源分配模型包括结构相同的第一网络和第二网络;所述模型训练模块具体用于:
[0031]将第一训练数据的当前时隙状态信息和目标动作输入所述第一网络,获得第一结果;其中,所述第一结果表示所述多个第二终端在所述第一训练数据的当前时隙状态信息下执行所述第一训练数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资源分配方法,其特征在于,应用于通信系统的核心网网元中,所述通信系统还包括终端、卫星和云计算中心,所述方法包括:通过多个第一终端的请求获取所述多个第一终端的状态信息;其中,所述状态信息包括所述多个第一终端接收的任务队列、所述多个第一终端可选择的发射信道;将所述状态信息输入已训练的资源分配模型,获得资源分配策略;其中,所述已训练的资源分配模型是以最小化所述通信系统的总能耗为优化目标对资源分配模型进行训练得到的,所述资源分配策略用于指示所述多个第一终端对应的发射信道和发射功率;通过所述卫星将包含所述资源分配策略的信令发送给所述多个第一终端,以使所述多个第一终端按照所述资源分配策略向所述云计算中心发送各自接收的任务队列。2.如权利要求1所述的方法,其特征在于,所述通信系统的总能耗包括所述多个第一终端的处理能耗、所述多个第一终端与所述卫星之间的传输能耗、以及所述云计算中心的处理能耗。3.如权利要求1或2所述的方法,其特征在于,在将所述状态信息输入已训练的资源分配模型,获得资源分配策略之前,所述方法还包括:从预存的经验回放数据中随机采样获得多条训练数据;其中,所述经验回放数据包括时隙连续的多条数据,每条数据包括当前时隙状态信息、目标动作、奖励、下一时隙状态信息,所述奖励与多个第二终端在所述当前时隙状态信息下执行所述目标动作时所述通信系统的总能耗负相关,所述目标动作包括所述多个第二终端选择对应的发射信道和对应的发射功率;基于所述多条训练数据对所述资源分配模型进行训练,获得所述已训练的资源分配模型。4.如权利要求3所述的方法,其特征在于,所述资源分配模型包括结构相同的第一网络和第二网络;基于所述多条训练数据对所述资源分配模型进行训练,获得所述已训练的资源分配模型,包括:将第一训练数据的当前时隙状态信息和目标动作输入所述第一网络,获得第一结果;其中,所述第一结果表示所述多个第二终端在所述第一训练数据的当前时隙状态信息下执行所述第一训练数据的目标动作的预测价值;将所述第一训练数据的下一时隙状态信息输入所述第二网络,获得第二结果;其中,所述第二结果表示所述多个第二终端在所述第一训练数据的下一时隙状态信息下执行多个动作的多个价值中的最大值,所述多个动作为预先建立的动作空间中的动作;根据所述第一结果和第三结果之间的误差,更新所述第一网络的参数;其中,所述第三结果表示所述多个第二终端在所述第一训练数据的当前时隙状态信息下执行所述第一训练数据的目标动作的实际价值,所述第三结果与所述第一训练数据的奖励以及所述第二结果正相关;当所述第一网络的迭代次数为预设次数的整数倍时,将所述第一网络的参数赋值给所述第二网络,直到所述第二网络的赋值次数达到预设阈值,将所述第二网络作为所述已训练的资源分配模型。5.如权利要求4所述的方法...

【专利技术属性】
技术研发人员:蒋鹏张强周一飞赵欢谭理庆
申请(专利权)人:中国星网网络应用有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1