【技术实现步骤摘要】
一种变电站巡检机器人路径规划系统
本专利技术涉及巡检机器人导航领域,具体涉及一种变电站巡检机器人路径规划系统。
技术介绍
在电力系统中,电能最基本特点是不能大规模地存储,并且电能的生产、输送、分配、使用都是连续的。整个电力系统实现网络化互联,并引入市场化的机制,给人们带来巨大利益,但同时系统的安全稳定运行却面临巨大的挑战。电力变电站系统是整个电力系统中生产、输送以及分配三大核心系统之一,对整个电力系统的安全起着重要的作用。目前对变电站的巡检方式主要有人工巡检和机器人巡检。智能巡检机器人主要通过远程控制或者自主控制方式,对变电站室外设备进行巡视检测,可代替人工进行一些重复、繁杂、高危险性的巡检,并能够完成更准确的常规化的巡检任务。变电站巡检机器人是移动机器人中的一种。国外对于移动机器人的研究,不仅起步较早,而且发展也较快。相对于国外,国内对移动机器人的研究开始时间较晚,距离世界前沿技术水平还相对较远。但国内正在加快移动机器人的探究步伐。在国家"863计划"项目的支持下,清华大学、哈尔滨工业大学、中国科学院等研究机构均开始对智能移动机器人的研究,并取得一定成果。我国对变电站智能巡检机器人的研究开始于2002年PSI,受到了国家“863”计划的支持。2005年10月,我国第一台变电站设备巡检机器人在长清投入运行,它是由山东电力科学院自主研发的。2012年2月,中国第一台轨道式巡检机器人投入试运行,这标志着中国变电站实体化机器人正处在飞快发展中,在发展自主移动机器人技术水平的同时,也有力地提高了电网系统的智能化水平。目前巡检机器人在我国得到广泛应用并将在今后国家电 ...
【技术保护点】
一种变电站巡检机器人路径规划系统,其特征在于,基于信息强度引导启发式Q学习,包括中控模块、距离传感器模块、RFID模块和运动控制模块,所述距离传感器模块由7个距离传感器组成,用于将所测得的距离数据传送给中控模块用于巡检机器人的避障;RFID模块由定点分布的RFID标签和巡检机器人上的RFID读写器组成,用于将RFID地标数据和目标地点位置数据传送给中控模块用于巡检机器人的位置标定和目标位置确定;运动控制模块接受来自中控模块的命令确定运动方向;中控模块为巡检机器人的Agent,用于接收其他模块传出来的数据确定行动策略,并向运动控制模块传送命令以规划路径。
【技术特征摘要】
1.一种变电站巡检机器人路径规划系统,其特征在于,基于信息强度引导启发式Q学习,包括中控模块、距离传感器模块、RFID模块和运动控制模块,所述距离传感器模块由7个距离传感器组成,用于将所测得的距离数据传送给中控模块用于巡检机器人的避障;RFID模块由定点分布的RFID标签和巡检机器人上的RFID读写器组成,用于将RFID地标数据和目标地点位置数据传送给中控模块用于巡检机器人的位置标定和目标位置确定;运动控制模块接受来自中控模块的命令确定运动方向;中控模块为巡检机器人的Agent,用于接收其他模块传出来的数据确定行动策略,并向运动控制模块传送命令以规划路径。2.如权利要求1所述的一种变电站巡检机器人路径规划系统,其特征在于,以巡检机器人正前方为零度线,七个距离传感器依次以-90°、-60°、-30°、0°、30°、60°、90°装配在巡检机器人体侧。3.如权利要求1所述的一种变电站巡检机器人路径规划系统,其特征在于,通过以下步骤完成巡检机器人奖惩机制的建立:步骤1:设定移动奖惩机制:为鼓励机器人以尽可能少的步数移动到目标点,每次执行一个动作都会产生一个惩罚回报值;同时为鼓励机器人提前做出判断,在非必要情况下尽量避免大角度移动,大角度移动的惩罚回报值更大一些。具体设置为:在动作属于{-30°,0°,30°}时,惩罚回报值为-0.2;动作属于{-60°,60°}时,惩罚回报值为-0.5;步骤2:设定目标地点奖惩机制:采用RFID标定巡检机器人与目标设备的位置;在巡检机器人每一步动作后,计算当前位置与目标地点之间的距离d,将-d(即令所计算的距离值取反)作为此时的目标回报值;同时,将移动到目标地点的回报值设置为+100;步骤3:设置巡检机器人避障回报值:采用两级避障回报值等级:当七个距离传感器有任何一个测量结果小于0.1米时,认定机器人已经撞到障碍物,此时惩罚回报值为-100,并将此作为终止状态退出当前episode进入下一个episode的学习;当七个距离传感器有任何一个测量结果大于0.1并且小于半个机器人车身长时,为鼓励机器人及早避障,设置此时的惩罚回报值为-2。4.如权利要求1所述的一种变电站巡检机器人路径规划系统,其特征在于,所述中控模块基于以下步骤完成巡检机器人路径的规划:步骤1:初始化Agent初始化状态-动作值函数、启发函数;确定目标设备位置和巡检所在位置;步骤2:设计表H记录信息强度将表H定义为四元组<si,ai,p(si,ai),fmax>;其中,si为需要更新信息强度的信息状态;ai为需要更新信息强度的信息动作;p(si,ai)为更新后的信息强度,信息强度为与适应度呈正比的标量;fmax为此前记录的信息状态si适应度最大值;步骤3:更新状态-动作值函数Q学习状态-动作值函数的更新规则如下所示...
【专利技术属性】
技术研发人员:蔡乐才,吴昊霖,高祥,居锦武,陈冬君,刘鑫,
申请(专利权)人:宜宾学院,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。