基于深度Q网络的网络资源选择方法、装置以及存储介质制造方法及图纸

技术编号:28988939 阅读:22 留言:0更新日期:2021-06-23 09:41
本公开提供了一种基于深度Q网络的网络资源选择方法、装置以及存储介质,其中的方法包括:接收业务申请以及与业务申请相对应的业务需求;基于当前的网络模拟环境获取与业务需求相对应的业务特征以及网络状态;根据DQN算法更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的模型参数;根据网络资源选择网络模型获取与业务申请以及业务需求相对应的资源信息。本公开的方法、装置以及存储介质,能够根据业务需求、网络状态等自动生成网络资源选择方案,进行端到端输出,网络资源配置灵活度高,能够按需进行分配,节约了网络资源,可以快速实现业务的部署,满足业务需求,提高使用感受度。

【技术实现步骤摘要】
基于深度Q网络的网络资源选择方法、装置以及存储介质
本专利技术涉及通信
,尤其涉及一种基于深度Q网络的网络资源选择方法、装置以及存储介质。
技术介绍
第五代移动通信技术研究是目前通信行业重点关注领域,5G网络具有多种业务。例如,同4G网络相比,网络切片是5G网络鲜明的特征和优点之一。5G网络切片,是指对网络数据实行类似于交通管理的分流管理,其本质是将现实存在的物理网络在逻辑层面上,划分为多个不同类型的虚拟网络,依照不同用户的服务需求,以诸如时延高低、带宽大小、可靠性强弱等指标来进行划分,从而应对复杂多变的应用场景。对于网络切片过程需要根据应用需要,分配合理的网络资源。目前,现有技术中还没有能够自动分配网络资源的技术方案。
技术实现思路
有鉴于此,本专利技术要解决的一个技术问题是提供一种基于深度Q网络的网络资源选择方法、装置以及存储介质。根据本公开的一个方面,提供一种基于深度Q网络的网络资源选择方法,包括:接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。可选地,所述根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数包括:设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型;根据所述网络状态和所述业务特征确定状态st;基于所述网络资源选择网络模型获取与所述st相对应的行为at;基于当前的网络模拟环境获取与所述at相对应的奖励值rt和新状态st+1;生成元组数据(si,ai,ri,si+1);基于所述奖励值和所述元组数据(si,ai,ri,si+1)设置与所述目标Q网络模型相关联的目标值;基于所述元组数据(si,ai,ri,si+1)和所述目标值,更新所述网络资源选择网络模型的模型参数,并输出进行更新处理后的所述网络资源选择网络模型。可选地,所述at为调整带宽和时延的行为;所述奖励值为:其中,所述Ι用于表征带宽、时延的满足程度。可选地,设置缓存区并获取数据存储数量;将所述元组数据(si,ai,ri,si+1)存储在缓存区中;如果所述元组数据(si,ai,ri,si+1)的数量大于所述数据存储数量,则使用新元组数据(si,ai,ri,si+1)替换缓存时间最长的元组数据(si,ai,ri,si+1)。可选地,所述基于所述奖励值和所述元组数据(si,ai,ri,si+1)设置与所述目标Q网络模型相关联的目标值包括:设置所述网络资源选择模型为Q、所述目标Q网络模型为设置所述目标值为:其中,所述为所述目标Q网络模型相对于所述st+1和所述at的最大值。可选地,所述基于所述元组数据(si,ai,ri,si+1)和所述目标值,更新所述网络资源选择网络模型的模型参数包括:获取一个所述元组数据(si,ai,ri,si+1),计算与此元组数据(si,ai,ri,si+1)的所述y值;更新所述Q的模型参数,以使Q(si,ai)最接近于所述y值;其中,Q(si,ai)为所述网络资源选择模型相对于所述st和所述at的值。可选地,设置新元组数据的生成次数,每间隔所述新元组数据的生成次数并基于所述Q的模型参数更新一次所述Q的模型参数。可选地,基于所述网络资源选择网络模型获取所述资源信息,生成业务调度信息并下发客户;其中,所述业务申请包括:网络切片业务申请。根据本公开的另一方面,提供一种基于深度Q网络的网络资源选择装置,包括:业务请求模块,用于接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;识别模块,用于基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;更新模块,用于根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;计算模块,用于根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。可选地,所述更新模块,包括:神经网络模型构建模块,用于设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型;通信网络模块,用于根据所述网络状态和所述业务特征确定状态st;网络资源选择模块,用于基于所述网络资源选择网络模型获取与所述st相对应的行为at;所述通信网络模块,还用于基于当前的网络模拟环境获取与所述at相对应的奖励值rt和新状态st+1,生成元组数据(si,ai,ri,si+1);目标Q网络模块,用于基于所述奖励值和所述元组数据(si,ai,ri,si+1)设置与所述目标Q网络模型相关联的目标值;学习模块,用于基于所述元组数据(si,ai,ri,si+1)和所述目标值,更新所述网络资源选择网络模型的模型参数;输出模块,用于输出进行更新处理后的所述网络资源选择网络模型。可选地,所述at为调整带宽和时延的行为;所述奖励值为:其中,所述Ι用于表征带宽、时延的满足程度。可选地,所述更新模块,包括:行为存储模块,用于设置缓存区并获取数据存储数量;将所述元组数据(si,ai,ri,si+1)存储在缓存区中;如果所述元组数据(si,ai,ri,si+1)的数量大于所述数据存储数量,则使用新元组数据(si,ai,ri,si+1)替换缓存时间最长的元组数据(si,ai,ri,si+1)。可选地,所述目标Q网络模块,用于设置所述网络资源选择模型为Q、所述目标Q网络模型为设置所述目标值为:其中,所述为所述目标Q网络模型相对于所述st+1和所述at的最大值。可选地,所述学习模块,用于获取一个所述元组数据(si,ai,ri,si+1),计算与此元组数据(si,ai,ri,si+1)的所述y值;更新所述Q的模型参数,以使Q(si,ai)最接近于所述y值;其中,Q(si,ai)为所述网络资源选择模型相对于所述st和所述at的值。可选地,所述更新模块,包括:总控模块,用于设置新元组数据的生成次数,每间隔所述新元组数据的生成次数并基于所述Q的模型参数更新一次所述Q的模型参数。可选地,调度模块,用于基于所述网络资源选择网络模型获取所述资源信息,生成业务调度信息并下发客户;其中,所述业务申请包括:网络切片业务申请。根据本公开的又一方面,提供一种基于深度Q网络的网络资源选择装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的方法。根据本公开的再一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如上所述的本文档来自技高网...

【技术保护点】
1.一种基于深度Q网络的网络资源选择方法,包括:/n接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;/n基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;/n根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;/n根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。/n

【技术特征摘要】
1.一种基于深度Q网络的网络资源选择方法,包括:
接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;
基于当前的网络模拟环境获取与所述业务需求相对应的业务特征以及网络状态;
根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数;
根据所述网络资源选择网络模型获取与所述业务申请以及所述业务需求相对应的资源信息。


2.如权利要求1所述的方法,所述根据DQN算法以及所述业务特征和所述网络状态,更新基于DQN的网络资源选择网络模型的模型参数,用以确定最新的所述模型参数包括:
设置所述网络资源选择网络模型以及与所述网络资源选择网络模型具有相同结构的目标Q网络模型;
根据所述网络状态和所述业务特征确定状态st;
基于所述网络资源选择网络模型获取与所述st相对应的行为at;
基于当前的网络模拟环境获取与所述at相对应的奖励值rt和新状态st+1;
生成元组数据(si,ai,ri,si+1);
基于所述奖励值和所述元组数据(si,ai,ri,si+1)设置与所述目标Q网络模型相关联的目标值;
基于所述元组数据(si,ai,ri,si+1)和所述目标值,更新所述网络资源选择网络模型的模型参数,并输出进行更新处理后的所述网络资源选择网络模型。


3.如权利要求2所述的方法,其中,
所述at为调整带宽和时延的行为;所述奖励值为:



其中,所述Ι用于表征带宽、时延的满足程度。


4.如权利要求3所述的方法,还包括:
设置缓存区并获取数据存储数量;
将所述元组数据(si,ai,ri,si+1)存储在缓存区中;
如果所述元组数据(si,ai,ri,si+1)的数量大于所述数据存储数量,则使用新元组数据(si,ai,ri,si+1)替换缓存时间最长的元组数据(si,ai,ri,si+1)。


5.如权利要求3所述的方法,所述基于所述奖励值和所述元组数据(si,ai,ri,si+1)设置与所述目标Q网络模型相关联的目标值包括:
设置所述网络资源选择模型为Q、所述目标Q网络模型为
设置所述目标值为:



其中,所述为所述目标Q网络模型相对于所述st+1和所述at的最大值。


6.如权利要求5所述的方法,所述基于所述元组数据(si,ai,ri,si+1)和所述目标值,更新所述网络资源选择网络模型的模型参数包括:
获取一个所述元组数据(si,ai,ri,si+1),计算与此元组数据(si,ai,ri,si+1)的所述y值;
更新所述Q的模型参数,以使Q(si,ai)最接近于所述y值;其中,Q(si,ai)为所述网络资源选择模型相对于所述st和所述at的值。


7.如权利要求6所述的方法,还包括:
设置新元组数据的生成次数,每间隔所述新元组数据的生成次数并基于所述Q的模型参数更新一次所述的模型参数。


8.如权利要求1所述的方法,还包括:
基于所述网络资源选择网络模型获取所述资源信息,生成业务调度信息并下发客户;
其中,所述业务申请包括:网络切片业务申请。


9.一种基于深度Q网络的网络资源选择装置,包括:
业务请求模块,用于接收业务申请以及与所述业务申请相对应的业务需求;其中,所述业务需求包括:带宽、时延、价格指标;
识别模...

【专利技术属性】
技术研发人员:王浩彬潘卫李为民
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1