一种多物流机器人移动控制方法及装置制造方法及图纸

技术编号:27933743 阅读:41 留言:0更新日期:2021-04-02 14:13
本发明专利技术实施例提供一种多物流机器人移动控制方法及装置,通过根据机器人可执行的动作构建动作空间;接收任务信息中的终点位置;将机器人的移动路径规划为一个或多个子目标位置,构成子目标位置空间;经训练分层强化学习网络的网络参数的数值得到网络参数的最终数值;通过基于网络参数的最终数值的分层强化学习网络控制机器人完成移动任务,实现了多物流机器人相互协同的移动控制的同时解决了复杂问题的维度灾难问题,提高了训练的效率。

【技术实现步骤摘要】
一种多物流机器人移动控制方法及装置
本专利技术涉及智能机器人领域,尤其涉及一种多物流机器人移动控制方法及装置。
技术介绍
物流行业已经进入了高度信息化、自动化、智能化和网络化的智能物流时代。智慧物流系统各环节的高效运行离不开智能仓储系统的支持。智能仓储系统利用物联网技术实时感知仓储状态,并应用人工智能技术进行数据处理和分析。与传统仓储系统相比,智能仓储系统具有效率高、容错率高、人工成本低、鲁棒性强等特点。智能仓储系统在运行过程中会产生大量的信息,其特点是订单信息、货物信息和仓储信息的动态性。因此,需要大量的仓储物流机器人和人工智能技术来优化决策。订单的动态任务分配问题属于拣货工作的一个环节,它包括订单批量、订单任务分配、路径规划、拣货、包装、发货等过程。在仓储系统中,订单信息通常存在种类多、类别杂、高频次、大批量等动态问题。因此,研究智能仓储系统最重要的是订单动态任务分配。在多智能体动态任务分配研究方面的成果主要采用启发式的智能算法。智能算法主要是利用环境学习或者启发式搜索的算法,如A*算法、演化算法、基于神经网络的方法等。基于模拟生物的演化算法主要有蚁群算法、遗传算法或将二者相结合的算法。现有的蚁群算法在求解高维空间问题时计算时间复杂度高、容易陷入局部最小。遗传算法仅能逼近全局最优解,且求解速度不快,在求解时可以与其他智能算法相结合。基于A*算法及其改进算法也是研究比较多的方法。此外也有基于搜索算法的相关研究,搜索算法在进行全局搜索时计算量庞大,而局部搜索需要启发式规则。
技术实现思路
本专利技术实施例提供一种多物流机器人移动控制方法及装置,通过将改进的SAC算法应用于分层强化学习解决了多物流机器人移动控制问题的同时解决了复杂问题的维度灾难问题,提高了训练的效率。为实现上述目的,一方面,本专利技术实施例提供了一种多物流机器人移动控制方法,其步骤包括:根据机器人可执行的动作构建动作空间;构建应用于多物流机器人的基于增加了子目标位置参数改进的SAC算法的分层强化学习网络,并随机初始化其网络参数的数值;所述分层强化学习网络用于从所述动作空间中选择待执行动作;根据训练起点位置、训练终点位置构建训练子目标位置空间;将所述训练子目标位置空间和训练环境状态空间输入所述分层强化学习网络,训练所述网络参数的数值,得到所述网络参数的最终数值;将所述最终数值用作所述分层强化学习网络的网络参数的数值,得到应用网络;接收到发送给机器人的任务信息,从所述任务信息中获取任务终点位置,并通过传感器采集当前数据,得到当前采样数据,从所述当前采样数据中获得物流机器人的当前位置,将当前位置作为任务起点位置;根据所述任务起点位置和所述任务终点位置构建任务子目标位置空间;根据所述任务子目标位置空间和传感器采集的实时采样数据,机器人的所述应用网络从所述动作空间中选择待执行动作;通过执行所述待执行动作,机器人完成从所述任务起点位置移动到所述任务终点位置。进一步地,所述分层强化学习网络包括:元控制器和控制器;所述控制器包括:动作策略网络和动作评价网络;所述元控制器包括:元控制器策略、元控制器值函数和元控制器损失函数;所述动作策略网络包括:动作策略和动作策略损失函数;动作评价网络包括:内部奖赏函数、动作评价值函数和动作评价损失函数;所述元控制器用于通过估算所述元控制器值函数的值及最小化所述元控制器损失函数的值,更新所述元控制器策略;所述元控制器策略用于根据机器人所处的环境状态和外部奖励值从子目标位置空间选择一个子目标位置;所述控制器的所述动作评价网络通过估算所述动作评价值函数的值及最小化所述动作评价损失函数的值,更新动作评价网络,并根据内部奖赏函数,生成内部奖励值;所述动作网络根据所述内部奖励值和机器人所处的环境状态,通过最小化所述动作策略损失函数的值,更新所述动作策略;所述动作策略用于根据所述子目标位置及机器人所处的环境状态从所述动作空间选择一个或多个待执行动作;所述待执行动作被机器人执行,控制机器人向所述子目标位置移动,导致外部环境产生新的环境状态;外部环境还会根据外部奖赏函数产生新的外部奖励值;所述外部环境还会根据外部奖赏函数产生新的外部奖励值,具体为:使用如下r(st,at)函数作为外部奖赏函数,产生新的外部奖励值:其中:st表示第t时间步时的所述当前环境状态;at表示第t时间步时的所述待执行动作;distt表示在执行第t时间步对应的所述待执行动作以前,机器人所在位置与所述终点位置的距离;distt+1表示在执行第t时间步对应的所述待执行动作以后,机器人所在位置与所述终点位置的距离;k是权重系数;rcollision是当机器人发生碰撞时的奖励值,为常数,取值为负数,表示惩罚;rtask是当机器人到达所述终点位置的奖励值,为常数,取正值,表示奖励;所述构建应用于多物流机器人的基于增加了子目标位置参数改进的SAC算法的分层强化学习网络,具体为:使用如下Q(st)函数作为元控制器值函数:其中:γ是折扣因子;r(st)表示在时间步t时的当前环境状态st下元控制器获得的外部奖励值;logπg(·|st)表示执行到时间步t时,在当前环境状态为st时,得到动作空间中各种动作的元控制器策略的熵;α是温度系数的超参数,用于调整熵值;πg表示元控制策略;使用如下JQ(ψ)函数作为所述元控制器损失函数:其中:Qψ(st;gt)表示元控制器值函数;Qθ(st,at;gt)表示动作评价值函数;logπφ(at|st,gt)表示动作策略网络在当前环境状态st时,试图到达子目标位置gt,得到待执行动作at时所采用的动作策略的熵;πφ表示动作策略网络的动作策略,其中φ表示动作策略网络参数;使用如下Q(st,at;gt)函数作为所述动作评价值函数:其中:γ是折扣因子;α是温度系数的超参数,用于调整熵值;πag表示控制器的策略,表示在时间步t时,当前环境状态为st,试图到达子目标位置gt时,得到待执行动作at的控制器的策略;logπag(at|st,gt)表示控制器策略的熵;表示在时间步t时,当前环境状态为st,执行待执行动作at,试图到达子目标位置gt,所获得的内部奖励值;使用如下JQ(θ)函数作为所述动作评价损失函数:其中:θ是动作评价网络参数;γ是折扣因子;α是温度系数的超参数,用于调整熵值;Qθ(st,at;gt)表示为在当前环境状态st,执行待执行动作at,尝试到达当前子目标位置gt时,动作评价值函数Qθ的值;表示在当前环境状态st,执行待执行动作at,尝试到达当前子目标位置gt时,获得的内部奖励值;log(πφ(at+1|st+1,gt))表示,为达到当前子目标位置gt,动作策略在新环境状态st+1下生成新动作at+1的动作策略的熵;使用如下函数作为所述动作策略损失函数:其中:Qθ(st,at;gt)表示为在当前环境状态st,执本文档来自技高网...

【技术保护点】
1.一种多物流机器人移动控制方法,其特征在于,其步骤包括:/n根据机器人可执行的动作构建动作空间;/n构建应用于多物流机器人的基于增加了子目标位置参数改进的SAC算法的分层强化学习网络,并随机初始化其网络参数的数值;所述分层强化学习网络用于从所述动作空间中选择待执行动作;/n根据训练起点位置、训练终点位置构建训练子目标位置空间;将所述训练子目标位置空间和训练环境状态空间输入所述分层强化学习网络,训练所述网络参数的数值,得到所述网络参数的最终数值;将所述最终数值用作所述分层强化学习网络的网络参数的数值,得到应用网络;/n接收到发送给机器人的任务信息,从所述任务信息中获取任务终点位置,并通过传感器采集当前数据,得到当前采样数据,从所述当前采样数据中获得物流机器人的当前位置,将当前位置作为任务起点位置;根据所述任务起点位置和所述任务终点位置构建任务子目标位置空间;/n根据所述任务子目标位置空间和传感器采集的实时采样数据,机器人的所述应用网络从所述动作空间中选择待执行动作;通过执行所述待执行动作,机器人完成从所述任务起点位置移动到所述任务终点位置。/n

【技术特征摘要】
1.一种多物流机器人移动控制方法,其特征在于,其步骤包括:
根据机器人可执行的动作构建动作空间;
构建应用于多物流机器人的基于增加了子目标位置参数改进的SAC算法的分层强化学习网络,并随机初始化其网络参数的数值;所述分层强化学习网络用于从所述动作空间中选择待执行动作;
根据训练起点位置、训练终点位置构建训练子目标位置空间;将所述训练子目标位置空间和训练环境状态空间输入所述分层强化学习网络,训练所述网络参数的数值,得到所述网络参数的最终数值;将所述最终数值用作所述分层强化学习网络的网络参数的数值,得到应用网络;
接收到发送给机器人的任务信息,从所述任务信息中获取任务终点位置,并通过传感器采集当前数据,得到当前采样数据,从所述当前采样数据中获得物流机器人的当前位置,将当前位置作为任务起点位置;根据所述任务起点位置和所述任务终点位置构建任务子目标位置空间;
根据所述任务子目标位置空间和传感器采集的实时采样数据,机器人的所述应用网络从所述动作空间中选择待执行动作;通过执行所述待执行动作,机器人完成从所述任务起点位置移动到所述任务终点位置。


2.如权利要求1所述的多物流机器人移动控制方法,其特征在于,
所述分层强化学习网络包括:元控制器和控制器;
所述控制器包括:动作策略网络和动作评价网络;
所述元控制器包括:元控制器策略、元控制器值函数和元控制器损失函数;
所述动作策略网络包括:动作策略和动作策略损失函数;
动作评价网络包括:内部奖赏函数、动作评价值函数和动作评价损失函数;
所述元控制器用于通过估算所述元控制器值函数的值及最小化所述元控制器损失函数的值,更新所述元控制器策略;所述元控制器策略用于根据机器人所处的环境状态和外部奖励值从子目标位置空间选择一个子目标位置;所述控制器的所述动作评价网络通过估算所述动作评价值函数的值及最小化所述动作评价损失函数的值,更新动作评价网络,并根据内部奖赏函数,生成内部奖励值;所述动作网络根据所述内部奖励值和机器人所处的环境状态,通过最小化所述动作策略损失函数的值,更新所述动作策略;所述动作策略用于根据所述子目标位置及机器人所处的环境状态从所述动作空间选择一个或多个待执行动作;所述待执行动作被机器人执行,控制机器人向所述子目标位置移动,导致外部环境产生新的环境状态;外部环境还会根据外部奖赏函数产生新的外部奖励值;
所述外部环境还会根据外部奖赏函数产生新的外部奖励值,具体为:
使用如下r(st,at)函数作为外部奖赏函数,产生新的外部奖励值:



其中:
st表示第t时间步时的所述当前环境状态;
at表示第t时间步时的所述待执行动作;
distt表示在执行第t时间步对应的所述待执行动作以前,机器人所在位置与所述终点位置的距离;
distt+1表示在执行第t时间步对应的所述待执行动作以后,机器人所在位置与所述终点位置的距离;
k是权重系数;
rcollision是当机器人发生碰撞时的奖励值,为常数,取值为负数,表示惩罚;
rtask是当机器人到达所述终点位置的奖励值,为常数,取正值,表示奖励;
所述构建应用于多物流机器人的基于增加了子目标位置参数改进的SAC算法的分层强化学习网络,具体为:
使用如下Q(st)函数作为元控制器值函数:



其中:
γ是折扣因子;
r(st)表示在时间步t时的当前环境状态st下元控制器获得的外部奖励值;
logπg(·|st)表示执行到时间步t时,在当前环境状态为st时,得到动作空间中各种动作的元控制器策略的熵;
α是温度系数的超参数,用于调整熵值;
πg表示元控制策略;
使用如下JQ(ψ)函数作为所述元控制器损失函数:



其中:
Qψ(st;gt)表示元控制器值函数;
Qθ(st,at;gt)表示动作评价值函数;
logπφ(at|st,gt)表示动作策略网络在当前环境状态st时,试图到达子目标位置gt,得到待执行动作at时所采用的动作策略的熵;
πφ表示动作策略网络的动作策略,其中φ表示动作策略网络参数;
使用如下Q(st,at;gt)函数作为所述动作评价值函数:



其中:
γ是折扣因子;
α是温度系数的超参数,用于调整熵值;
πag表示控制器的策略,表示在时间步t时,当前环境状态为st,试图到达子目标位置gt时,得到待执行动作at的控制器的策略;
logπag(at|st,gt)表示控制器策略的熵;

表示在时间步t时,当前环境状态为st,执行待执行动作at,试图到达子目标位置gt,所获得的内部奖励值;
使用如下JQ(θ)函数作为所述动作评价损失函数:



其中:



θ是动作评价网络参数;
γ是折扣因子;
α是温度系数的超参数,用于调整熵值;
Qθ(st,at;gt)表示为在当前环境状态st,执行待执行动作at,尝试到达当前子目标位置gt时,动作评价值函数Qθ的值;

表示在当前环境状态st,执行待执行动作at,尝试到达当前子目标位置gt时,获得的内部奖励值;
log(πφ(at+1|st+1,gt))表示,为达到当前子目标位置gt,动作策略在新环境状态st+1下生成新动作at+1的动作策略的熵;
使用如下函数作为所述动作策略损失函数:



其中:
Qθ(st,at;gt)表示为在当前环境状态st,执行待执行动作at,尝试到达当前子目标位置gt时,动作评价值函数Qθ的值;
α是温度系数的超参数,用于调整熵值;
logπφ(at|st,gt)表示为达到当前子目标位置gt,在当前环境状态st+1下生成待执行动作at的动作策略的熵;
Z(st,gt)代表分区函数,用于对分布进行归一化操作;该分布对于元控制器策略π(gt|st)来说是常数,在实际计算中可以直接忽略;
使用如下函数作为所述内部奖赏函数:



其中:
st+1表示第t时间步对应的所述带执行动作执行后的所述新环境状态;
st表示第t时间步对应的所述带执行动作执行前的所述当前环境状态;
at表示第t时间步时的所述待执行动作;
r(st,at)为外部奖赏函数,表示在第t时间步时的外部奖励值;
rsubgoal为机器人达到所述当前子目标位置时获得的奖励值,为正数。


3.如权利要求2所述的多物流机器人移动控制方法,其特征在于,
所述元控制器还包括:元控制器参数
所述动作策略网络还包括:动作策略网络参数
所述动作评价网络还包括:动作评价网络参数;
所述分层强化学习网络还包括:外部奖励累积值、第一经验缓冲区和第二经验缓冲区;
所述分层强化学习网络的所述网络参数包括:所述元控制器参数、所述动作网络策略参数、所述动作评价网络参数;
所述将所述训练子目标位置空间和训练环境状态空间输入所述分层强化学习网络,训练所述网络参数的数值,得到所述网络参数的最终数值,具体步骤为:
随机初始化所述元控制器参数、所述动作策略网络参数、所述动作评价网络参数的数值;
输入所述动作空间、所述训练子目标位置空间、所述训练环境状态空间;
初始化第一经验缓冲区和第二经验缓冲区;
从所述训练环境状态空间中选择机器人当前所处位置的环境状态作为初始环境状态;
从所述训练子目标位置空间中选择一个子目标位置作为当前子目标位置;
将所述外部奖励累积值清零;将所述初始环境状态赋值给当前环境状态;
将所述当前环境状态输入给所述动作策略,所述动作策略从所述动作空间选择一个待执行动作;
在所述当前环境状态下,以所述当前子目标位置为目的地,执行所述待执行动作后,按以所述当前环境状态和所述待执行动作为条件的环境状态条件转移概率,得到新环境状态;
根据所述待执行动作、所述当前环境状态、所述新环境状态获得外部奖励值;将所述待执行动作、所述当前环境状态、所述新环境状态及所述外部奖励值输入给所述内部奖赏函数得到所述待执行动作的所述内部奖励值;
将所述当前环境状态、所述待执行动作、所述当前子目标位置、所述内部奖励值、所述新环境状态缓存到第一经验缓冲区;
从所述第一经验缓冲区中采样数据,将所述待执行动作、所述当前环境状态、所述新环境状态、所述内部奖励值输入给动作评价值函数,并通过最小化动作评价损失函数,更新动作评价网络参数,通过最小化动作策略损失函数,更新动作策略网络参数;
当所述第二经验缓冲区有数据时,从所述第二经验缓冲区采样所述当前环境状态、所述当前子目标位置、所述外部奖励累积值及子目标环境状态,并输入到元控制器值函数,通过最小化元控制器损失函数,更新元控制器参数;所述子目标环境状态为机器人从所述当前环境状态下完成了尝试向所述当前子目标位置移动时的环境状态;
将所述新环境状态赋值给所述子目标环境状态;将所述外部奖励值累加到所述外部奖励累积值中;将所述新环境状态赋值给所述当前环境状态;
若机器人到达所述子目标位置或者由第七步骤至当前步骤的执行次数达到预置的动作次数,则继续执行后续步骤;否则执行第七步骤;其中,所述第七步骤为将所述当前环境状态输入给所述动作策略,所述动作策略从所述动作空间选择一个待执行动作;
将所述初始环境状态、所述子目标位置、所述外部奖励累积值及所述子目标环境状态缓存到第二经验缓冲区;
若第四步骤至当前步骤的执行次数达到预置的训练次数,则终止训练,输出所述元控制器参数、动作策略网络参数、动作评价网络参数的最终数值;否则执行第四步骤,其中所述第四步骤为从所述训练环境状态空间中选择机器人当前所处位置的环境状态作为初始环境状态。


4.如权利要求1所述的多物流机器人移动控制方法,其特征在于,
所述传感器包括:距离感应装置和摄像头;
所述接收到发送给机器人的任务信息,从所述任务信息中获取任务终点位置,并通过传感器采集当前数据,得到当前采样数据,从所述当前采样数据中获得物流机器人的当前位置,将当前位置作为任务起点位置;根据所述任务起点位置和所述任务终点位置构建任务子目标位置空间,具体步骤为:
接收到发送给机器人的任务信息,从所述任务信息中获取任务终点位置;
采样所述距离感应装置的信号,获得机器人与附近物体或机器人与其他机器人之间的距离信息;
采样所述摄像头的环境图像数据,获得机器人所处环境的图像信息;
采样所述摄像头拍摄的位置二维码图像,获得机器人所在当前位置的位置数据,作为所述任务起点位置;
预处理所述任务起点位置和所述任务终点位置,得到所述任务子目标位置空间。


5.如权利要求4所述的多物流机器人移动控制方法,其特征在于,所述根据所述任务子目标位置空间和传感器采集的实时采样数据,机器人的所述应用网络从所述动作空间中选择待执行动作;通过执行所述待执行动作,机器人完成从所述任务起点位置移动到所述任务终点位置,具体步骤为:
获取所述任务子目标位置空间和所述动作空间;
通过传感器采集实时采样数据;
判断机器人所在位置若已经位于所述任务终点位置则机器人停止,否则继续执行后续步骤;
通过所述应用网络根据所述实时采样数据,从所述子目标位置空间,选择子目标位置;
通过所述应用网络根据所述子目标位置和...

【专利技术属性】
技术研发人员:唐恒亮王安琪薛菲杨佳鑫曹阳
申请(专利权)人:北京物资学院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1