【技术实现步骤摘要】
一种分布式多目标深度确定性值网络机器人能量管理方法
本专利技术属于电力系统中机器人巡检领域,涉及一种机器人能量管理方法,适用于电力系统的智能巡检机器人的能量管理。
技术介绍
变电站作为电力系统中重要是组成部分,涉及电力系统经济调度和电力系统调控。巡检机器人在电力系统的大规模使用推动了电力系统巡检的智能化发展。机器学习发展迅速,在机器人的应用逐渐普遍。深度确定性值网络通过强化学习和三值网络的结合,能够提高强化学习在学习过程的学习效率和精度。通过标准化全精度权重和量化三元值权重,通过量化训练三元值权重,通过最小化损失函数不断优化,得到最优的三值网络,进而控制强化学习的下一步动作,得到更好的学习效果。在电力系统的电力巡检中,多巡检机器人构成了一个复杂的调度问题,各巡检机器人通过一致性协议交换电量和机器人所处位置来实现巡检机器人的分布式调度。通过多目标深度确定性网络来优化巡检机器人的充电效率和工作路径,实现巡检机器人能量的最优管理,提高巡检机器人的工作效率,提高巡检机器人的能量利用率。
技术实现思路
本专 ...
【技术保护点】
1.一种分布式多目标深度确定性值网络机器人能量管理方法,其特征在于,其步骤如下:/n步骤1:巡检机器人通过自身的传感器获得巡检机器人的工作状态;/n步骤2:得到的巡检机器人的充电效率和工作路径作为多目标深度确定性值网络的状态输入;/n采用强化学习来构造深度确定性值策略,S是状态空间,A是动作空间,R为奖励函数,P为转移概率;在环境下,一个智能体会学习并得到一个策略π;强化学习过程获得的总奖励为:/n
【技术特征摘要】
1.一种分布式多目标深度确定性值网络机器人能量管理方法,其特征在于,其步骤如下:
步骤1:巡检机器人通过自身的传感器获得巡检机器人的工作状态;
步骤2:得到的巡检机器人的充电效率和工作路径作为多目标深度确定性值网络的状态输入;
采用强化学习来构造深度确定性值策略,S是状态空间,A是动作空间,R为奖励函数,P为转移概率;在环境下,一个智能体会学习并得到一个策略π;强化学习过程获得的总奖励为:
其中,Rall为强化学习过程获得的总奖励;T为交互结束时前进的步数;r(si,ai)为在状态si下执行动作ai所获得的收益;强化学习在环境中的长期收益会通过折扣参数γ来调控:
其中,γi为在第i次交互时的折扣参数值;为在折扣参数γ控制下强化学习过程获得的总奖励;
步骤3:通过贝尔曼方程来寻找最优的动作价值函数;
其中,Q*(st,at)为第t次交互时在状态st执行动作at获得的最优动作价值函数;Q*(st+1,a′t+1)为第t+1次交互时状态st+1执行动作a′t+1获得的最优动作价值函数;α为学习率;
该动作价值网络的损失值为:
L(θQ)=(r(st,at)+γQ'(st+1,at+1|θQ')-Q(st,at|θQ))2(4)
其中,L(θQ)为损失函数值;Q'(st+1,at+1|θQ')为目标价值网络Q值矩阵,Q(st,at|θQ)为网络同步权重Q值矩阵;
通过策略梯度来更网络同步权重Q值矩阵:
<...
【专利技术属性】
技术研发人员:刘东端,卜祥鹏,莫明山,殷林飞,卢泉,高放,
申请(专利权)人:广西大学,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。