当前位置: 首页 > 专利查询>宜宾学院专利>正文

一种变电站巡检机器人路径规划系统技术方案

技术编号:15638163 阅读:299 留言:0更新日期:2017-06-15 13:46
本发明专利技术公开了一种变电站巡检机器人路径规划系统,基于信息强度引导启发式Q学习,包括中控模块、距离传感器模块、RFID模块和运动控制模块,距离传感器模块由7个距离传感器组成,用于将所测得的距离数据传送给中控模块用于巡检机器人的避障;RFID模块由定点分布的RFID标签和巡检机器人上的RFID读写器组成,用于将RFID地标数据和目标地点位置数据传送给中控模块用于巡检机器人的位置标定和目标位置确定;运动控制模块接受来自中控模块的命令确定运动方向;中控模块为巡检机器人的Agent。本发明专利技术采用强化学习的路径规划系统完成特殊天气等条件下对重点指定设备进行特殊巡检任务,避免磁轨道等路径规划方法的轨道维护工作。

【技术实现步骤摘要】
一种变电站巡检机器人路径规划系统
本专利技术涉及巡检机器人导航领域,具体涉及一种变电站巡检机器人路径规划系统。
技术介绍
在电力系统中,电能最基本特点是不能大规模地存储,并且电能的生产、输送、分配、使用都是连续的。整个电力系统实现网络化互联,并引入市场化的机制,给人们带来巨大利益,但同时系统的安全稳定运行却面临巨大的挑战。电力变电站系统是整个电力系统中生产、输送以及分配三大核心系统之一,对整个电力系统的安全起着重要的作用。目前对变电站的巡检方式主要有人工巡检和机器人巡检。智能巡检机器人主要通过远程控制或者自主控制方式,对变电站室外设备进行巡视检测,可代替人工进行一些重复、繁杂、高危险性的巡检,并能够完成更准确的常规化的巡检任务。变电站巡检机器人是移动机器人中的一种。国外对于移动机器人的研究,不仅起步较早,而且发展也较快。相对于国外,国内对移动机器人的研究开始时间较晚,距离世界前沿技术水平还相对较远。但国内正在加快移动机器人的探究步伐。在国家"863计划"项目的支持下,清华大学、哈尔滨工业大学、中国科学院等研究机构均开始对智能移动机器人的研究,并取得一定成果。我国对变电站智能巡检机器人的研究开始于2002年PSI,受到了国家“863”计划的支持。2005年10月,我国第一台变电站设备巡检机器人在长清投入运行,它是由山东电力科学院自主研发的。2012年2月,中国第一台轨道式巡检机器人投入试运行,这标志着中国变电站实体化机器人正处在飞快发展中,在发展自主移动机器人技术水平的同时,也有力地提高了电网系统的智能化水平。目前巡检机器人在我国得到广泛应用并将在今后国家电网智能化巡检工程中得到持续应用。截止到2014年,全国至少有27个省、市、自治区、直辖市采用了变电站巡检机器人进行巡检,覆盖了南方电网、华北电网、华东电网以及西北电网。由此,有必要对变电站巡检机器人进行功能上的改进或完善。变电站巡检机器人巡检方式可分为正常巡检和特殊巡检作业。正常巡检作业即变电站巡检机器人巡视全部变电站设备;特殊巡检作业即在特殊情况下对某些指定的变电站设备进行巡视,一般指在高温天气、大负荷运行、新设备投入运行以及冰雹、雷电等恶劣环境下,对变电站特别设备进行特殊巡检。在变电站巡检机器人进行特殊巡检时,若采用目前常见的磁轨道等巡检机器人则不具有灵活性。基于行为的变电站巡检机器人路径规划实质就是传感器感知的环境状态到执行器动作的映射。采用这种技术的巡检机器人能够对外界环境变化做出响应,具有实时、快速的优点。因此路径规划性能的优劣将直接影响巡检机器人巡检工作的效率。强化学习是机器学习重要分支之一,在近几年重新受到越来越多的关注,也得到越发广泛和复杂的实际应用。它通过试错的方式与环境进行交互以完成学习。如果环境对其动作评价为积极的则选择该动作趋势加强,否则便会减弱。Agent在不断训练的过程中得到最优策略。因此强化学习具有自主学习和在线学习的特点,通过训练可用于机器人路径规划中,目前也已广泛地应用于移动机器人的路径规划问题当中。虽然强化学习有着诸多优点以及值得期待的应用前景,但强化学习也存在着收敛速度慢、“维数灾难”、平衡探索与利用、时间信度分配等问题。强化学习收敛速度慢的原因之一是没有教师信号,只能通过探索并依靠环境评价逐渐改进以获得最优动作策略。为进一步加快强化学习收敛速度,启发式强化学习通过给强化学习注入一定的先验知识,有效提高强化学习的收敛速度。Torrey等通过迁移学习为强化学习算法注入先验经验以提高收敛速度;但是迁移学习所注入的先验知识是固定的,即使有不合理规则也无法在训练过程中在线修正。Bianchi等通过给传统强化学习算法添加启发函数,在训练过程中结合使用值函数和启发函数来选择动作,提出了启发式强化学习(HeuristicallyAcceleratedReinforcementLearning,HARL)算法模型。启发式强化学习最重要的特点是在线更新启发函数,以不断增强表现更好的动作的启发函数。方敏等在启发式强化学习算法基础上提出一种基于状态回溯的启发式强化学习方法,通过引入代价函数描述重复动作的重要性,结合动作奖赏及动作代价提出一种新的启发函数定义以进一步提高收敛速度;但是该方法只是针对重复性动作的重要性进行评估。
技术实现思路
为解决上述问题,本专利技术提供了一种变电站巡检机器人路径规划系统。为实现上述目的,本专利技术采取的技术方案为:一种变电站巡检机器人路径规划系统,基于信息强度引导启发式Q学习,包括中控模块、距离传感器模块、RFID模块和运动控制模块,所述距离传感器模块由7个距离传感器组成,用于将所测得的距离数据传送给中控模块用于巡检机器人的避障;RFID模块由定点分布的RFID标签和巡检机器人上的RFID读写器组成,用于将RFID地标数据和目标地点位置数据传送给中控模块用于巡检机器人的位置标定和目标位置确定;运动控制模块接受来自中控模块的命令确定运动方向;中控模块为巡检机器人的Agent,用于接收其他模块传出来的数据确定行动策略,并向运动控制模块传送命令以规划路径。其中,以巡检机器人正前方为零度线,七个距离传感器依次以-90°、-60°、-30°、0°、30°、60°、90°装配在巡检机器人体侧。其中,通过以下步骤完成巡检机器人奖惩机制的建立:步骤1:设定移动奖惩机制:为鼓励机器人以尽可能少的步数移动到目标点,每次执行一个动作都会产生一个惩罚回报值;同时为鼓励机器人提前做出判断,在非必要情况下尽量避免大角度移动,大角度移动的惩罚回报值更大一些。具体设置为:在动作属于{-30°,0°,30°}时,惩罚回报值为-0.2;动作属于{-60°,60°}时,惩罚回报值为-0.5;步骤2:设定目标地点奖惩机制:采用RFID标定巡检机器人与目标设备的位置;在巡检机器人每一步动作后,计算当前位置与目标地点之间的距离d,将-d(即令所计算的距离值取反)作为此时的目标回报值;同时,将移动到目标地点的回报值设置为+100;步骤3:设置巡检机器人避障回报值:采用两级避障回报值等级:当七个距离传感器有任何一个测量结果小于0.1米时,认定机器人已经撞到障碍物(包括设备和墙壁等),此时惩罚回报值为-100,并将此作为终止状态退出当前episode进入下一个episode的学习;当七个距离传感器有任何一个测量结果大于0.1并且小于半个机器人车身长时,为鼓励机器人及早避障,设置此时的惩罚回报值为-2。其中,所述中控模块基于以下步骤完成巡检机器人路径的规划:步骤1:初始化Agent初始化状态-动作值函数、启发函数;确定目标设备位置和巡检所在位置;步骤2:设计表H记录信息强度将表H定义为四元组<si,ai,p(si,ai),fmax>;其中,si为需要更新信息强度的信息状态;ai为需要更新信息强度的信息动作;p(si,ai)为更新后的信息强度,信息强度为与适应度呈正比的标量;fmax为此前记录的信息状态si适应度最大值;步骤3:更新状态-动作值函数Q学习状态-动作值函数的更新规则如下所示:步骤4:更新适应度最大值将适应度值定义为每幕(episode)训练中Agent从初始状态移动到目标状态的折扣累计回报;其定义方式为其中,β为适应度折扣因子,R为本文档来自技高网
...
一种变电站巡检机器人路径规划系统

【技术保护点】
一种变电站巡检机器人路径规划系统,其特征在于,基于信息强度引导启发式Q学习,包括中控模块、距离传感器模块、RFID模块和运动控制模块,所述距离传感器模块由7个距离传感器组成,用于将所测得的距离数据传送给中控模块用于巡检机器人的避障;RFID模块由定点分布的RFID标签和巡检机器人上的RFID读写器组成,用于将RFID地标数据和目标地点位置数据传送给中控模块用于巡检机器人的位置标定和目标位置确定;运动控制模块接受来自中控模块的命令确定运动方向;中控模块为巡检机器人的Agent,用于接收其他模块传出来的数据确定行动策略,并向运动控制模块传送命令以规划路径。

【技术特征摘要】
1.一种变电站巡检机器人路径规划系统,其特征在于,基于信息强度引导启发式Q学习,包括中控模块、距离传感器模块、RFID模块和运动控制模块,所述距离传感器模块由7个距离传感器组成,用于将所测得的距离数据传送给中控模块用于巡检机器人的避障;RFID模块由定点分布的RFID标签和巡检机器人上的RFID读写器组成,用于将RFID地标数据和目标地点位置数据传送给中控模块用于巡检机器人的位置标定和目标位置确定;运动控制模块接受来自中控模块的命令确定运动方向;中控模块为巡检机器人的Agent,用于接收其他模块传出来的数据确定行动策略,并向运动控制模块传送命令以规划路径。2.如权利要求1所述的一种变电站巡检机器人路径规划系统,其特征在于,以巡检机器人正前方为零度线,七个距离传感器依次以-90°、-60°、-30°、0°、30°、60°、90°装配在巡检机器人体侧。3.如权利要求1所述的一种变电站巡检机器人路径规划系统,其特征在于,通过以下步骤完成巡检机器人奖惩机制的建立:步骤1:设定移动奖惩机制:为鼓励机器人以尽可能少的步数移动到目标点,每次执行一个动作都会产生一个惩罚回报值;同时为鼓励机器人提前做出判断,在非必要情况下尽量避免大角度移动,大角度移动的惩罚回报值更大一些。具体设置为:在动作属于{-30°,0°,30°}时,惩罚回报值为-0.2;动作属于{-60°,60°}时,惩罚回报值为-0.5;步骤2:设定目标地点奖惩机制:采用RFID标定巡检机器人与目标设备的位置;在巡检机器人每一步动作后,计算当前位置与目标地点之间的距离d,将-d(即令所计算的距离值取反)作为此时的目标回报值;同时,将移动到目标地点的回报值设置为+100;步骤3:设置巡检机器人避障回报值:采用两级避障回报值等级:当七个距离传感器有任何一个测量结果小于0.1米时,认定机器人已经撞到障碍物,此时惩罚回报值为-100,并将此作为终止状态退出当前episode进入下一个episode的学习;当七个距离传感器有任何一个测量结果大于0.1并且小于半个机器人车身长时,为鼓励机器人及早避障,设置此时的惩罚回报值为-2。4.如权利要求1所述的一种变电站巡检机器人路径规划系统,其特征在于,所述中控模块基于以下步骤完成巡检机器人路径的规划:步骤1:初始化Agent初始化状态-动作值函数、启发函数;确定目标设备位置和巡检所在位置;步骤2:设计表H记录信息强度将表H定义为四元组<si,ai,p(si,ai),fmax>;其中,si为需要更新信息强度的信息状态;ai为需要更新信息强度的信息动作;p(si,ai)为更新后的信息强度,信息强度为与适应度呈正比的标量;fmax为此前记录的信息状态si适应度最大值;步骤3:更新状态-动作值函数Q学习状态-动作值函数的更新规则如下所示...

【专利技术属性】
技术研发人员:蔡乐才吴昊霖高祥居锦武陈冬君刘鑫
申请(专利权)人:宜宾学院
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1