【技术实现步骤摘要】
人机协同控制移动式机器人智能避障方法和系统
[0001]本专利技术涉及移动式机器人智能避障
,具体涉及一种人机协同控制移动式机器人智能避障方法、系统、存储介质和电子设备。
技术介绍
[0002]避障是指移动式机器人根据采集的障碍物的状态信息,在行走过程中通过传感器感知到妨碍其通行的静态和动态物体时,按照一定的方法进行有效地避障,最后达到目标点。即目前移动式机器人的基于深度强化学习避障算法,主要通过传感器获取数据,结合深度强化学习在仿真环境下进行训练实现机器人端到端的避障控制。
[0003]然而,现有的避障方法并不能实现避障任务的完全成功。尤其对于在环境复杂或者人群密集的情况下,会出现机器人冻结问题,机器人冻结是指机器人认为当前所有向前的速度都会导致碰撞,如果阻挡机器人的障碍物或行人不让开的话,机器人会出现无限期的停滞不前,也就是利用训练得到的策略无法解决该问题。
技术实现思路
[0004](一)解决的技术问题针对现有技术的不足,本专利技术提供了一种人机协同控制移动式机器人智能避障方法、系统、存储 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种人机协同控制移动式机器人智能避障方法,其特征在于,在仿真环境中预先训练好机器人自主避障网络和人机协同网络,包括:S1、获取当前目标点位置;S2、判断机器人是否抵达目标点,若是则进入S4,否则所述机器人自主避障网络根据自主避障算法,结合机器人当前状态,输出机器人当前时刻的线速度和角速度,逐步向目标点靠近;所述人机协同网络根据实时的激光雷达传感数据,输出人机交互动作,若发出信号=1,则进入S3,若不发出信号=0,则重复执行S2;S3、机器人发出指令信号至服务端,并接收由服务端返回的远程控制信号,进入S2;S4、抵达目标点,完成当前任务。2.如权利要求1所述的人机协同控制移动式机器人智能避障方法,其特征在于,基于环境复杂度和深度强化学习算法PPO预先训练所述机器人自主避障网络,具体包括:机器人根据传感器获取自身的当前状态s
t
,结合Actor网络输出当前的动作a
t
转移到下一状态s
t+1
,并得到环境的反馈奖励r
t
,将得到的经验(s
t
,a
t
,s
t+1
,r
t
)存储,通过不断更新Actor网络的参数和搜集新的经验,得到最优的策略,使得当前Critic网络对当前的动作评价最高;其中,强化学习元素的状态=(,,,,),表示通过卷积当前激光雷达数据所得到的特征、表示信号指令动作,发出信号时=1,反之=0、表示机器人相对于目标的当前位置、表示当前时刻机器人的速度、表示当前的环境复杂度;最终输出的动作a
t
为角速度w
t
和线速度v
t
;奖励函数r
t
设计如下:设计如下:分别代表机器人抵达目标点、逐步向目标点靠近、发生碰撞、时间步数惩罚、远离障碍物、轨迹更加平滑的奖励;最终Actor网络根据奖励函数r
t
,不断地最大化奖励,学习最优避障策略。3.如权利要求2所述的人机协同控制移动式机器人智能避障方法,其特征在于,根据激光雷达数据,获取当前的环境复杂度,具体表示为:光雷达数据,获取当前的环境复杂度,具体表示为:光雷达数据,获取当前的环境复杂度,具体表示为:光雷达数据,获取当前的环境复杂度,具体表示为:光雷达数据,获取当前的环境复杂度,具体表示为:其中,H(P)
laser
代表当前激光雷达传感数据分布的熵值,n代表对当前激光雷达数据所分的类别数目,p
i
代表当前类别i的概率;
O
(laser_free)
代表当前激光雷达观测数据中空闲空间占总视野的大小,其中N代表激光雷达发射的射线数,L代表激光雷达最大可观测的距离,L
i
代表当前类别激光雷达的观测距离,F
i
代表当前类别的频数;
∆
h
t
表示时间前后数据分布的变化带来的复杂度,采用相邻两个时间点t、t
‑
技术研发人员:赵灿灿,欧阳波,丁帅,杨善林,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。