一种基于强化学习的智能电网切片无线资源分配方法及系统技术方案

技术编号:26384954 阅读:22 留言:0更新日期:2020-11-19 23:54
本发明专利技术公开了一种基于强化学习的智能电网切片无线资源分配方法及系统,其中方法包括:基于智能电网场景下的不同电力业务的需求对所述电力业务进行分类,并为多个所述电力业务设置优先级;按照所述电力业务的分类将所述电力业务与电网切片进行关联;建立电网业务资源分配的强化学习优化模型,根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作,基于最小成本原则为电网业务分配电网切片;其中优先级高的电力业务优先分配电网切片。

【技术实现步骤摘要】
一种基于强化学习的智能电网切片无线资源分配方法及系统
本专利技术涉及电力通信的频谱资源分配
,更具体地,涉及一种基于强化学习的智能电网切片无线资源分配方法及系统。
技术介绍
在能源和电力需求增长的驱动下,电力业务正在向分布式配电自动化、遥视、电力物联网、人工智能等未来方向发展,世界电网以崭新的面貌从传统网络进入了以智能电网为标志的新阶段。电网涵盖发、输、变、配、用等环节,各类业务众多,分布式电源、用电信息采集、精准负荷控制、移动巡检等业务都迫切需要低时延、大连接、大带宽的5G网络来支撑,通过提高网络容量,加强无线网络广深覆盖能力,降低业务时延,全面深度感知源网荷储设备运行、状态和环境信息,优化调度来实现跨区域送受端协调控制,实现提升新能源消纳能力,通过输变电、配用电设备广泛互联、信息深度采集,提升故障就地处理、精准主动抢修、三相不平衡治理和区域能源自治水平,提高供电可靠性,降低大电网运行风险,提升电网安全经济运行水平。网络切片被认为是5G网络的重要关键技术之一,其将单个物理网络分成多个独立的逻辑网络,以支持各种垂直的多服务网络,并本文档来自技高网...

【技术保护点】
1.一种基于强化学习的智能电网切片无线资源分配方法,所述方法包括:/n基于智能电网场景下的不同电力业务的需求对所述电力业务进行分类,并为多个所述电力业务设置优先级;/n按照所述电力业务的分类将所述电力业务与电网切片进行关联;/n建立电网业务资源分配的强化学习优化模型,根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作,基于最小成本原则为电网业务分配电网切片;其中优先级高的电力业务优先分配电网切片。/n

【技术特征摘要】
1.一种基于强化学习的智能电网切片无线资源分配方法,所述方法包括:
基于智能电网场景下的不同电力业务的需求对所述电力业务进行分类,并为多个所述电力业务设置优先级;
按照所述电力业务的分类将所述电力业务与电网切片进行关联;
建立电网业务资源分配的强化学习优化模型,根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作,基于最小成本原则为电网业务分配电网切片;其中优先级高的电力业务优先分配电网切片。


2.根据权利要求1所述的方法,将多个所述电网切片按需求进行联合,通过切片管理器管理对应的切片。


3.根据权利要求1所述的方法,所述电力业务的类别包括:电网控制类、信息采集类和移动应用类;
所述电力业务的需求包括时延、速率、可靠性。


4.根据权利要求1所述的方法,所述建立电网业务资源分配的强化学习优化模型,包括:
所述状态空间为:
电网切片m在第n个状态下的当前状态sm用于指示当前所有可用于承载相关电力业务的切片的状态空间;
每个用户的需求dk=d1,d2,...,dK;
系统的频谱效率SE可定义为:






其中,B是基站n的系统带宽,R是传输速率,bk是分配给用户k的带宽;σ2表示热噪声功率,表示信道增益,基站n的发射功率用pn表示,N为系统中的基站总数量,l为系统中的某个基站;
用户体验质量QoE定义为:



∑s∈Mμs=1
其中R为传输速率;为单位时间内用户的最大传输速率;是用户实际速率与最大速率的比值;μs表示用户的优先级,基于用户体验质量QoE确定电力业务的优先级;
所述奖励函数为:
Reward=λ·SE+γ·QoE,
其中,λ,γ分别代表SE和QoE的权重系数;SE代表频谱效率,QoE表示用户体验质量。


5.根据权利要求4所述的方法,所述强化学习优化模型的算法为:
设置状态空间为S={s1,s2,...,sn},动作空间为A={a1,a2,...,an},奖励函数为Reward={st,at},P(st,st+1)表示从状态st转移到st+1的转移概率;
策略π:S→A,从状态空间到动作空间的映射,代表从状态st进行at的动作,变换到下一状态st+1;强化学习算法通过定义值函数得到最优策略,值函数定义为下式:



V代表值函数,γ是表示未来效用对当前效用的重要性的一个系数,ri代表第i次奖励函数的值,最优策略对应着最大值函数,即:



根据Q-learning算法,切片控制器通过迭代学习到最优的Q值;在任意时刻,处于状态s的切片控制器选择动作a,得到奖励Reward(s,a),同时也会转移到下一个状态s′;



其中,α代表学习率;Q(s,a)表示状态为s,动作为a时的Q值;
通过调整α和γ的值,保证Q(s,a)最终可以收敛到最优策略时候的值,即Q*(s,a)。


6.一种基于强...

【专利技术属性】
技术研发人员:王智慧王继业汪洋汤亿则孟萨出拉刘明月吴赛杨德龙杨鸿珍邱兰馨
申请(专利权)人:中国电力科学研究院有限公司国网浙江省电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1