【技术实现步骤摘要】
一种基于主动深度强化学习多机协作SLAM方法
[0001]本专利技术涉及多机器人SLAM领域,用于无回环复杂场景下的SLAM累计误差消除,具体涉及的是一种基于主动深度强化学习的多机器人协作SLAM方法。
技术介绍
[0002]同步定位与地图构建(Simultaneous localization and mapping,简称为SLAM)是指搭载特定传感器的载体,在未知环境于运动过程中进行自身定位,并建立环境的地图。SLAM能够有效解决GPS信号缺失下的定位问题,在无人车辆、机器人等领域得到了广泛的应用。目前,基于单机的视觉SLAM方法已经具有较为成熟的解决方案,但随着作业环境的扩大,单机SLAM效率较低,估计时间较长,往往难以达到良好的效果。为了解决这一问题,多机协同的SLAM方案引起了学术界和工业界的广泛关注。多机协同SLAM一般指群体移动机器人,在未知环境中,搭载相机获取环境信息,通过数据交换,估计,优化自身的定位信息,并建立环境的地图。其中,SLAM系统的累计误差在长期无回环的情况下难以消除。
[0003]目前 ...
【技术保护点】
【技术特征摘要】
1.一种基于主动深度强化学习多机协作SLAM方法,其特征在于,包括以下步骤:S1、对机器人运行ORB
‑
SLAM2程序,通过相机获取图像进行位姿估计,得到多机的初始运动轨迹位姿图;S2、基于所得的机器人运动轨迹位姿图,使用深度强化学习TD3算法训练进行轨迹的优化得到更准确的位姿;S3、在强化学习算法基础上,引入主动感知策略同时优化多机的位姿,根据实时的SLAM估计概率值P,选择相应的机器人进行TD3算法优化位姿信息;S4、机器人间互相传输各自的位姿信息和实际距离信息,使用TD3算法进行SLAM轨迹的后端优化,达到消除累积误差效果。2.根据权利要求1所述的一种基于主动深度强化学习多机协作SLAM方法,其特征在于,步骤S1具体如下:通过自身携带的相机感知周围环境进行位姿估计和建图,首先对相机获取的真实图像进行ORB特征点提取,包括提取FAST角点,并计算BRIEF描述子两个步骤;提取ORB特征点之后,通过对ORB特征点进行相邻帧间的特征匹配来进行初始的位姿估计;特征匹配解决了SLAM中的数据关联问题,即确定当前看到的路标与之前的看到的路标之间的对应关系;通过对BRIEF描述子的准确匹配确定相邻帧间的特征匹配,可以得到初始位姿估计,本发明使用快速近似最近邻(FLANN)算法进行特征匹配;根据特征匹配建立的数据关联进行相机位姿和空间点位置估计,得到多机的初始运动轨迹位姿图。3.根据权利要求2所述的一种基于主动深度强化学习多机协作SLAM方法,其特征在于,通过特征匹配建立的数据关联进行相机位姿和空间点位置估计的过程包括:求解过程也即求解一个Bundle Adjustment问题,是一个最小化重投影误差的问题;考虑n个三维空间点P和三维空间点P的投影p,希望计算相机的位姿R,t,以李代数表示为ε;i表示第i个特征点,假设第i个空间点坐标为P
i
=[X
i
,Y
i
,Z
i
]
T
,其投影的像素坐标为U
i
=[u
i
,v
i
]
T
;像素位置与空间点的关系如下:写成矩阵形式是:s
i
U
i
=K exp(ε^)P
i
其中,i为第i个特征点,ε为相机位姿的李代数,s
i
为第i个特征点对应的深度参数,K为相机参数;由于相机位姿未知以及观测点的噪声,该等式存在一个误差;因此,把误差求和,构建最小二乘问题,然后寻找最好的相机位姿,最小化所有观测点匹配误差,最终得到多机的初始运动轨迹位姿图:
其中,使用矩阵最小二乘法求得最小化所有观测点匹配误差ε*。4.根据权利要求1所述的一种基于主动深度强化学习多机协作SLAM方法,其特征在于,步骤S2中,根据SLAM的初始位姿(带有误差),在SLAM得到的多机初始位姿轨迹图基础上,使用深度强化学习TD3算法用于马尔可夫决策过程进行SLAM轨迹的优化,具体如下:使用强化学习模块用于决策控制的方向,所述马尔可夫决策过程的数学表达式如下式所示:所示:其中,智能体0时刻的初始状态为S0,智能体从一个动作集A中自由地选择动作a0来执行,0时刻的动作a0被执行后,获得0时刻的动作a0的即刻奖励r0,同时智能体以的概率随机地转移到下一个状态,即1时刻的状态S1,,是0时刻的动作a0对应0时刻的初始状态S0的概率;在1时刻的状态S1下,然后紧接着开始执行下一个动作,即1时刻的动作a1,执行后,获得1时刻的动作a1的即时奖励r1,智能体又以的概率随机被转移到下一个状态,即2时刻的状态S2,以此类推完成整个转移过程,是动作a1对应初始状态S1的概率,为一个联合概率,表示在选择动作a的情况下,状态从s转移到S'的概率,A
t
为t时刻的动作集,S
t+1
=S'为状态集,为动作a的s状态下的奖励值,E为下一时刻的状态的价值期望,R
t+1
为t+1时刻的奖励函数。5.根据权利要求3所述的一种基于主动深度强化学习多机协作SLAM方法,其特征在于,所述深度强化学习的算法的离线训练过程包括:在每个时间步,将智能体从环境中得到的样本,包括当前动作a、状态s和奖励r存储到经验回放池中;每次训练时从经验回放池中随机抽取样本,并更新Q值;每隔预设训练次数重新复制当前Q网络的参数到目标Q网络,θ'
←
θ,θ'为目标Q网络的参数,θ为当前Q网络的参数;训练时的损失变化为:其中,L'为损失函数,Q(S
t
,a
t
,θ)表示原始Q网络,为目标Q网络,θ和分别表示原始网络和目标网络的权重,a'为下一个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。