基于数字孪生和强化学习的多智能体协同避碰采摘方法技术

技术编号:34689025 阅读:13 留言:0更新日期:2022-08-27 16:22
本发明专利技术公开了一种基于数字孪生和深度强化学习的多智能体协同避碰采摘方法,包括建立数字果园数据库,构建孪生果园场景;基于马尔可夫决策过程框架对虚拟机器人自主避碰采摘策略问题进行环境建模并搭建仿真系统,设定状态空间和动作空间;基于人工势场法设计奖励函数,结合多智能体分布式近端策略优化算法建立APF

【技术实现步骤摘要】
基于数字孪生和强化学习的多智能体协同避碰采摘方法


[0001]本专利技术属于智能决策领域,具体涉及一种基于数字孪生和强化学习的多智能体协同避碰采摘方法。

技术介绍

[0002]水果的采摘与收获是果园生产过程中的关键环节,传统的采摘方式大多数是依靠人工完成,无法满足市场需求。农业采摘机器人能够有效替代人工完成采摘任务,在智慧农业领域起到了至关重要的作用,目前针对采摘机器人的研究可分为4部分:机械结构设计、视觉感知与定位、决策与规划以及执行控制。在动态、非结构化的环境下,如何让采摘机器人快速适应环境并准确做出正确的采摘策略是当前亟待解决的关键问题,而现阶段的相关研究主要集中于单智能体的决策与路径规划,或者是在环境已知并且场景简单的多智能体的决策与路径规划。如熊俊涛等发表的《基于深度强化学习的虚拟机器人采摘路径避障规划》(农业机械学报,2020(51),S2:1

10),采用了DPPO算法对虚拟机器人进行快速轨迹规划,实现采摘机器人避障路径规划;但该方法只适用于单智能体环境,并且仿真果园环境不具有时变性。而在真实世界的野外环境下,采摘目标点的未知性和障碍物的随机性,使得农业采摘机器人的行为具有更多的不确定性和复杂性,为了进一步提高农产品生产效率,搭建一个多智能体协同避碰采摘路径规划系统具有十分重要意义。

技术实现思路

[0003]本专利技术的目的在于克服现有技术中存在的缺点,提供一种基于数字孪生和深度强化学习的多智能体协同避碰采摘方法,可以实现在实时变化环境下,多智能体能够协同作业且自主避碰,进而完成自动采摘任务。
[0004]本专利技术的目的通过下述技术方案实现:
[0005]一种基于数字孪生和深度强化学习的多智能体协同避碰采摘方法,包括下述步骤:
[0006](1)数据采集系统实时采集真实果园环境信息并传输到云服务器,结合数据分析与挖掘技术和农艺知识建立数字果园数据库;
[0007](2)建立云服务器与虚拟仿真平台之间的数据通信,利用云服务器的实时数据驱动虚拟仿真平台中的三维模型进行智能仿真调度,构建孪生果园场景;建立虚拟采摘机器人模型;
[0008](3)基于马尔可夫决策过程框架对虚拟机器人自主避碰采摘策略问题进行环境建模并搭建仿真系统,设定状态空间和动作空间;
[0009](4)基于人工势场法设计奖励函数,结合多智能体分布式近端策略优化算法建立APF

MADPPO学习模型;所述奖励函数包括采摘点引导函数、障碍物碰撞惩罚函数、机器人之间的碰撞惩罚函数以及时间惩罚函数;
[0010](5)建立APF

MADPPO网络模型及训练流程;
[0011](6)设置训练方法,包括终止条件设置、训练参数配置、训练过程设置以及使用APF

MADPPO学习模型进行多智能体采摘避碰策略学习训练;
[0012](7)基于迁移学习的方法将训练结果模型迁移到动态、非结构化环境下进行采摘避碰路径规划推理学习,规划出一条最优采摘路径;
[0013](8)以所述最优采摘路径为参考,通过控制指令驱动真实机器人在错综复杂的环境下完成自动避碰采摘任务。
[0014]步骤(1)中,所述数据采集系统包括处理器芯片模块、LoRa通信模块、摄像机以及传感器模块,用于采集真实果园实时状态信息;所述的传感器模块包括空气温湿度传感器、土壤水分传感器、土壤酸碱度传感器、二氧化碳浓度传感器和光照强度传感器;所述云服务器包括对真实果园实时数据获取以及对数据库进行数据查询和客户端的响应与反馈;所述数据库包括数字果园运行状态数据存储。
[0015]步骤(2)中,所述建立云服务器与虚拟仿真平台之间的数据通信,是指通过Socket通信机制建立虚拟仿真平台(如Unity3D虚拟仿真平台)与服务器(如阿里云服务器、腾讯云服务器)之间的交互通信。所述实时数据驱动,包括数据传输与数据处理;所述数据传输是指Unity3D虚拟仿真平台通过http方式访问目标服务器的过程;所述数据处理是指Unity3D虚拟仿真平台从服务器获取果园实时数据后,通过协程机制完成数据处理过程。所述构建孪生果园场景是指根据真实果园场景信息(包括土壤、果树等),设定相关状态参数,所述状态参数与数字孪生果园的模型属性相对应匹配,通过获取服务器端的响应信号,利用协程机制将实时数据传输到仿真环境中并采用智能仿真调度算法驱动虚拟平台各模型构建孪生果园场景。
[0016]步骤(3)中,是对复杂动态的野外环境下多智能体协同避碰采摘策略问题进行环境建模,使用马尔科夫决策过程描述智能体与环境交互的随机决策过程;所述随机决策过程定义为四元组(S
t
,A
t
,R
t
,S
t+1
),具体包括:
[0017]S
t
:为t时刻智能体所处的状态,构成系统状态空间;
[0018]A
t
:为t时刻智能体所采取的动作,构成系统的动作空间;
[0019]R
t
:为t时刻智能体所获得的奖励值,构成系统的奖励函数;
[0020]S
t+1
:为t+1时刻智能体所处的状态。
[0021]步骤(4)中,所述APF

MADPPO学习模型,包括状态空间、动作空间和奖励函数设计;所述状态空间包括机器人末端执行器空间位置采摘点空间位置P
goal
、障碍物空间位置P
obs
、机器人末端执行器与采摘点的相对位置机器人各个转动轴的中心点与障碍物的相对位置机器人末端执行器与采摘点的距离机器人各个转动轴的中心点与障碍物的距离机器人之间各个转动轴的距离记为其中i表示为智能体(即采摘机器人)个数;所述动作空间包括各个机器人各个关节轴的转动角度的变化。
[0022]所述奖励函数包括:采摘点引导函数R
guide
、障碍物避碰函数R
obs
、机器人之间的碰撞惩罚函数R
am
以及时间惩罚函数R
time
;系统累积奖励值R计算方法如下式所示:
[0023]R=R
guide
+R
obs
+R
arm
+R
time
[0024]其中,采摘点引导函数R
guide
的计算方法是计算各个机械臂末端执行器与目标采摘点位置P
goal
=(x
o
,y
o
,z
o
)之间的距离i=1.2.3...n为智能体个数,并取得在状态t时刻的最小距离当逐渐减小时给予低奖赏,低奖赏系数为k1,否则给予惩罚;当目标距离为0时,给予最大奖赏k2并结束本回合,具体如下式所示:
[0025][0026][0027][0028]其中,障碍物避碰函数R
obs
的计算方法是计算各个机器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数字孪生和深度强化学习的多智能体协同避碰采摘方法,其特征在于包括下述步骤:(1)数据采集系统实时采集真实果园环境信息并传输到云服务器,结合数据分析与挖掘技术和农艺知识建立数字果园数据库;(2)建立云服务器与虚拟仿真平台之间的数据通信,利用云服务器的实时数据驱动虚拟仿真平台中的三维模型进行智能仿真调度,构建孪生果园场景;建立虚拟采摘机器人模型;(3)基于马尔可夫决策过程框架对虚拟机器人自主避碰采摘策略问题进行环境建模并搭建仿真系统,设定状态空间和动作空间;(4)基于人工势场法设计奖励函数,结合多智能体分布式近端策略优化算法建立APF

MADPPO学习模型;所述奖励函数包括采摘点引导函数、障碍物碰撞惩罚函数、机器人之间的碰撞惩罚函数以及时间惩罚函数;(5)建立APF

MADPPO网络模型及训练流程;(6)设置训练方法,包括终止条件设置、训练参数配置、训练过程设置以及使用APF

MADPPO学习模型进行多智能体采摘避碰策略学习训练;(7)基于迁移学习的方法将训练结果模型迁移到动态、非结构化环境下进行采摘避碰路径规划推理学习,规划出一条最优采摘路径;(8)以所述最优采摘路径为参考,通过控制指令驱动真实机器人在错综复杂的环境下完成自动避碰采摘任务。2.根据权利要求1所述的多智能体协同避碰采摘方法,其特征在于:步骤(1)中,所述数据采集系统包括处理器芯片模块、LoRa通信模块、摄像机以及传感器模块,用于采集真实果园实时状态信息;所述的传感器模块包括空气温湿度传感器、土壤水分传感器、土壤酸碱度传感器、二氧化碳浓度传感器和光照强度传感器;所述云服务器包括对真实果园实时数据获取以及对数据库进行数据查询和客户端的响应与反馈;所述数据库包括数字果园运行状态数据存储。3.根据权利要求1所述的多智能体协同避碰采摘方法,其特征在于:步骤(2)中,所述构建孪生果园场景是指根据真实果园场景信息,设定相关状态参数,所述状态参数与数字孪生果园的模型属性相对应匹配,通过获取服务器端的响应信号,利用协程机制将实时数据传输到仿真环境中并采用智能仿真调度算法驱动虚拟平台各模型构建孪生果园场景。4.根据权利要求1所述的多智能体协同避碰采摘方法,其特征在于:是对复杂动态的野外环境下多智能体协同避碰采摘策略问题进行环境建模,使用马尔科夫决策过程描述智能体与环境交互的随机决策过程;所述随机决策过程定义为四元组(S
t
,A
t
,R
t
,S
t+1
),具体包括:S
t
:为t时刻智能体所处的状态,构成系统状态空间;A
t
:为t时刻智能体所采取的动作,构成系统的动作空间;R
t
:为t时刻智能体所获得的奖励值,构成系统的奖励函数;S
t+1
:为t+1时刻智能体所处的状态。5.根据权利要求1所述的多智能体协同避碰采摘方法,其特征在于:步骤(4)中,所述APF

MADPPO学习模型,包括状态空间、动作空间和奖励函数设计;所述状态空间包括机器人
末端执行器空间位置采摘点空间位置P
goal
、障碍物空间位置P
obs
、机器人末端执行器与采摘点的相对位置机器人各个转动轴的中心点与障碍物的相对位置机器人末端执行器与采摘点的距离机器人各个转动轴的中心点与障碍物的距离机器人之间各个转动轴的距离记为其中i表示为智能体即采摘机器人个数;所述动作空间包括各个机器人各个关节轴的转动角度的变化。6.根据权利要求5所述的多智能体协同避碰采摘方法,其特征在于:所述奖励函数包括:采摘点引导函数R
guide
、障碍物避碰函数R
obs
、机器人之间的碰撞惩罚函数R
arm
以及时间惩罚函数R
time
;系统累积奖励值R计算方法如下式所示:R=R
guide
+R
obs
+R
arm
+R
time...

【专利技术属性】
技术研发人员:王红军林俊强邹湘军张坡李承恩邹伟锐
申请(专利权)人:华南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1