基于Q-learning的电力通信网效用最大化资源分配策略生成方法技术

技术编号:18086846 阅读:40 留言:0更新日期:2018-05-31 15:59
本发明专利技术提供一种基于Q‑learning的电力通信网效用最大化资源分配策略生成方法,包括如下步骤:构建电力通信网资源管理模型,其包括资源管理仿真平台、电力通信网基础设施和电力通信业务;资源管理仿真平台获取电力通信网基础设施的信息;资源管理仿真平台获取电力通信业务的信息;资源管理仿真平台基于Q‑learning生成电力通信业务的资源分配策略。本发明专利技术方法具有较快的收敛速度,通过与静态资源分配算法和动态资源分配算法的比较,验证了本发明专利技术方法在保证资源利用率较高的情况下,电力业务取得了较高的效用值,满足了更多业务的资源需求,提高了用户的满意度。

【技术实现步骤摘要】
基于Q-learning的电力通信网效用最大化资源分配策略生成方法
本专利技术涉及电力通信网资源分配
,具体涉及一种基于Q-learning的电力通信网效用最大化资源分配策略生成方法。
技术介绍
智能电网业务的快速发展,对电力通信网的资源需求逐渐增多。网络虚拟化技术是当前网络转型的关键技术,在QoS保障方面具有较大优势。网络虚拟化环境下,电力通信网包括电力通信网基础设施(PTNI,PowerTelecommunicationNetworkInfrastructure)和电力通信业务(PCB,PowerCommunicationBusiness),其中PTNI创造和管理基础网络,包含计算节点、链路资源等物理资源,而PCB根据电力通信用户的需求,为用户提供差异性服务。在此背景下,关于如何提高底层网络资源的利用率方面,已有较多研究有效的解决了虚拟化资源分配问题,提高了底层节点或链路资源的利用率。但是,已有研究没有很好的解决如何满足较多业务需求、提高用户满意度方面的问题。
技术实现思路
为了在提高电力通信网资源利用率的基础上,尽可能满足较多的业务需求,本专利技术建立了电力通信网资源分配模型,并提出了基于Q-learning的电力通信网效用最大化的资源分配策略生成方法,具体包括如下步骤:1)构建电力通信网资源管理模型,其包括资源管理仿真平台、电力通信网基础设施和电力通信业务;2)资源管理仿真平台获取电力通信网基础设施的信息;3)资源管理仿真平台获取电力通信业务的信息;4)资源管理仿真平台基于Q-learning生成电力通信业务的资源分配策略。步骤1)中,所述电力通信网基础设施用于向资源管理仿真平台上报资源供给信息,电力通信业务用于向资源管理仿真平台提出资源需求信息,资源管理仿真平台用于对电力通信网基础设施进行抽象、登记及分配。步骤2)中,设电力通信网基础设施的集合为IPTNI={PTNI1,PTNI2,...,PTNIi},第i个PTNIi给资源管理仿真平台上报计算资源和链路资源的数量。步骤3)中,假设存在M个电力通信业务,第j个PCBj给资源管理仿真平台上报需要的计算资源和链路资源的数量;PCBj的用户集合设为Userj,即Userj={user1,user2,...,userk},用户userk的效用函数为uuserk(gk,rk),gk表示用户userk被分配的资源,rk表示用户userk使用的资源;定义用户userk的效用函数为平均端到端用户的延迟,公式如下:其中,n为电力业务的服务类型,lj表示链路的传播延迟,l0=1ms是一个固定的链路延迟.表示链路效用函数的队列延迟;定义PCBj的效用函数:其中,αk是用户userk的权重;PCBj每次提出资源需求时,选择的分配资源数量策略为PCBj的所有策略构成的策略集Bi,即bi∈Bi。步骤4)中,设定资源管理仿真平台的目标为最大化所有电力通信业务的效用,公式如下:其中表示所有PTNI链路资源的带宽容量;资源管理仿真平台定义PCBj的支付为τj,公式如下:其中,表示公式(4)的最优解,即表示PCBj参与资源分配,但不计算PCBj的效用时公式(4)的最优解;PCBj的效用函数定义:步骤4)具体包括以下步骤:41)建立基于Q-Learning的策略选择模块与环境的交互模型;42)确定Q-learning理论要素;43)运行基于Q-learning的电力通信业务的资源分配策略生成方法,生成电力通信网效用最大化资源分配策略。除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。由以上技术方案可知,本专利技术方法具有较快的收敛速度,通过与静态资源分配算法和动态资源分配算法的比较,验证了本专利技术方法在保证资源利用率较高的情况下,电力业务取得了较高的效用值,满足了更多业务的资源需求,提高了用户的满意度。附图说明图1为本专利技术的流程示意图;图2为本专利技术中电力通信网资源管理模型的示意图;图3为本专利技术中策略选择模块与环境交互模型示意图;图4为本专利技术的PCB1最优动作的选择过程的示意图;图5为本专利技术的PCB2最优动作的选择过程的示意图;图6为本专利技术的PTNI资源的平均利用率比较的示意图;图7为本专利技术的PCB的总效用比较的示意图。具体实施方式下面结合附图对本专利技术的一种优选实施方式作详细的说明。在本专利技术的方案中,为了在提高电力通信网资源利用率的基础上,尽可能满足较多的业务需求,本专利技术提供了一种基于Q-learning的电力通信网效用最大化资源分配策略生成方法,如图1所示,包括以下步骤:101)构建电力通信网资源管理模型,该模型包括资源管理仿真平台、电力通信网基础设施、电力通信业务三部分。本专利技术提出的电力通信网资源管理模型如图2所示,该模型通过引入一类“资源管理仿真平台”实体,将资源分配问题转化为由电力通信网基础设施层、资源管理仿真平台、电力通信业务三方组成的博弈过程。其中,电力通信网基础设施向资源管理仿真平台上报资源供给信息,电力通信业务向资源管理仿真平台提出资源需求信息,资源管理仿真平台对电力通信网基础设施进行抽象、登记及分配。102)资源管理仿真平台获取电力通信网基础设施(PTNI,PowerTelecommunicationNetworkInfrastructure)的信息。设PTNI集合为IPTNI={PTNI1,PTNI2,...,PTNIi},第i个PTNIi给资源管理仿真平台上报可以提供的计算资源和链路资源的数量,设PTNIi的计算资源的固定平均成本为计算资源的单位成本为计算资源的最大容量为PTNIi的链路资源的固定平均成本为链路资源的单位成本为链路资源的最大容量为103)资源管理仿真平台获取电力通信业务(PCB,PowerCommunicationBusiness)的信息;假设存在M个PCB,第j个PCBj给资源管理仿真平台上报需要的计算资源和链路资源的数量。PCBj的用户集合设为Userj,即Userj={user1,user2,...,userk},用户userk的效用函数为uuserk(gk,rk),gk表示用户userk被分配的资源,rk表示用户userk使用的资源.在文献[21]中,用户的效用函数被定义为平均端到端用户的延迟:其中,n为电力业务的服务类型,lj表示链路的传播延迟,l0=1ms是一个固定的链路延迟.表示链路效用函数的队列延迟,并且函数是严格凹函数。基于此,本专利技术设定用户userk的效用函数为式(2).网络虚拟化环境可以提供链路延迟有保障的虚拟链路资源,本专利技术将所有链路的延迟均设置为1ms.式(2)表示用户效用函数的目标是最小化用户的端到端延迟:定义PCBj的效用函数为公式(3),其中,αk是用户userk的权重.PCBj每次提出资源需求时,选择的分配资源数量策略为PCBj的所有策略构成的策略集Bi,即bi∈Bi.PCBj的最优资源需求策略表示PCBj对于网络带宽的最优资源分配量.电力通信网运行决策和仿真系统的目标是基于所有PCB的资源需求,生成最优的资源分配策略集合,并确保资源分配策略集合中包含尽可能多的PCB的最优资源分配策略。本专利技术中考虑PCBj的策略集为离散集合,策略集Bi中包含PCBj的真实资源需求即在每次进行资源分配时本文档来自技高网...
基于Q-learning的电力通信网效用最大化资源分配策略生成方法

【技术保护点】
一种基于Q‑learning的电力通信网效用最大化资源分配策略生成方法,其特征在于,包括如下步骤:1)构建电力通信网资源管理模型,其包括资源管理仿真平台、电力通信网基础设施和电力通信业务;2)资源管理仿真平台获取电力通信网基础设施的信息;3)资源管理仿真平台获取电力通信业务的信息;4)资源管理仿真平台基于Q‑learning生成电力通信业务的资源分配策略。

【技术特征摘要】
1.一种基于Q-learning的电力通信网效用最大化资源分配策略生成方法,其特征在于,包括如下步骤:1)构建电力通信网资源管理模型,其包括资源管理仿真平台、电力通信网基础设施和电力通信业务;2)资源管理仿真平台获取电力通信网基础设施的信息;3)资源管理仿真平台获取电力通信业务的信息;4)资源管理仿真平台基于Q-learning生成电力通信业务的资源分配策略。2.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤1)中,所述电力通信网基础设施用于向资源管理仿真平台上报资源供给信息,电力通信业务用于向资源管理仿真平台提出资源需求信息,资源管理仿真平台用于对电力通信网基础设施进行抽象、登记及分配。3.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤2)中,设电力通信网基础设施的集合为IPTNI={PTNI1,PTNI2,...,PTNIi},第i个PTNIi给资源管理仿真平台上报计算资源和链路资源的数量,设PTNIi的计算资源的固定平均成本为计算资源的单位成本为计算资源的最大容量为PTNIi的链路资源的固定平均成本为链路资源的单位成本为链路资源的最大容量为4.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤3)中,假设存在M个电力通信业务,第j个PCBj给资源管理仿真平台上报需要的计算资源和链路资源的数量;PCBj的用户集合设为Userj,即Userj={user1,user2,...,userk},用户userk的效用函数为gk表示用户userk被分配的资源,rk表示用户userk使用的资源;定义用户userk的效用函数为平均端到端用户的延迟,公式如下:其中,n为电力业务的服务类型,lj表示链路的传播延迟,l0=1ms是一个固定的链路延迟,表示链路效用函数的队列延迟;定义PCBj的效用函数:其中,αk是用户userk的权重;PCBj每次提出资源需求时,选择的分配资源数量策略为PCBj的所有策略构成的策略集Bi,即bi∈Bi。5.根据权利要求4所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,设定用户userk的效用函数的目标是最小化用户的端到端延迟,公式如下:其中,所有链路的延迟均设置为1ms。6.根据权利要求4所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,所述PCBj的策略集为离散集合,策略集Bi中包含PCBj的真实资源需求即在每次进行资源分配时,所有电力通信业务的资源需求信息由M维向量b来表示,即b={b1,b2,...,bM}。7.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤4)中,设定资源管理仿真平台的目标为最大化所有电力通信业务的效用,公式如下:其中表示所有PTNI链路资源的带宽容量;资源管理仿真平台定义PCBj的支付为τj,公式如下:其中,表示公式(4)的最优解,即表示PCBj参与资源分配,但不计算PCBj的效用时公式(4)的最优解;PCBj的效用函数定义:8.根据权利要求1所述的电力通信网效用最大化资源分配策略生成方法,其特征在于,步骤4...

【专利技术属性】
技术研发人员:谢小军卓文合于浩吴非金鑫王伟
申请(专利权)人:国网安徽省电力有限公司信息通信分公司国家电网公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1