机械臂抓取模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37764734 阅读：6 留言：0更新日期：2023-06-06 13:23

本发明专利技术公开了一种机械臂抓取模型的训练方法、装置、电子设备及存储介质。该方法包括：获取机械臂待抓取物体的环境状态信息；将所述机械臂待抓取物体的环境状态信息输入至预先构建的分段式奖励函数，得到奖励信息；基于所述机械臂待抓取物体的环境状态信息、所述机械臂待抓取物体的环境状态信息对应的动作信息和所述奖励信息对待训练模型进行训练，得到机械臂抓取模型。上述技术方案，通过分段式奖励函数确定奖励信息，可以有效避免稀疏奖励的问题，从而提升机械臂抓取模型的训练效果，进而提升使用机械臂抓取模型抓取物体的成功率。提升使用机械臂抓取模型抓取物体的成功率。提升使用机械臂抓取模型抓取物体的成功率。

全部详细技术资料下载

【技术实现步骤摘要】
机械臂抓取模型的训练方法、装置、电子设备及存储介质

[0001]本专利技术涉及机器视觉
，尤其涉及一种机械臂抓取模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术的发展，相关智能机器人遍布各行各业。其对提高工业生产效率、降低生成成本以及提高产品质量发挥着至关重要的作用。
[0003]现有技术中，已经将强化学习引入到了机械臂的控制和规划当中，使机械臂在与环境的交互过程中，具有一定的识别、判断、比较、鉴别、记忆和自行调整能力。
[0004]目前，强化学习在环境奖励上存在稀疏奖励的问题，即当机械臂在抓取物体失败时，获得的奖励一直为0，无法获得正向奖励来提升机械臂的抓取策略，导致机械臂抓取模型的训练效果差，以及在使用机械臂抓取模型进行物体抓取时抓取成功率低。

技术实现思路

[0005]本专利技术提供了一种机械臂抓取模型的训练方法、装置、电子设备及存储介质，以提升机械臂抓取模型的训练精度，从而提升使用机械臂抓取模型进行物体抓取的成功率。
[0006]根据本专利技术的一方面，提供了一种机械臂抓取模型的训练方法，包括：
[0007]获取机械臂待抓取物体的环境状态信息；
[0008]将所述机械臂待抓取物体的环境状态信息输入至预先构建的分段式奖励函数，得到奖励信息；
[0009]基于所述机械臂待抓取物体的环境状态信息、所述机械臂待抓取物体的环境状态信息对应的动作信息和所述奖励信息对待训练模型进行训练，得到机械臂抓取模型。
[0...

【技术保护点】

【技术特征摘要】
1.一种机械臂抓取模型的训练方法，其特征在于，包括：获取机械臂待抓取物体的环境状态信息；将所述机械臂待抓取物体的环境状态信息输入至预先构建的分段式奖励函数，得到奖励信息；基于所述机械臂待抓取物体的环境状态信息、所述机械臂待抓取物体的环境状态信息对应的动作信息和所述奖励信息对待训练模型进行训练，得到机械臂抓取模型。2.根据权利要求1所述的方法，其特征在于，所述分段式奖励函数包括渐进奖励函数和抓取奖励函数；相应的，所述将所述机械臂待抓取物体的环境状态信息输入至预先构建的分段式奖励函数，得到奖励信息，包括：将所述机械臂待抓取物体的环境状态信息输入至所述渐进奖励函数，得到渐进奖励信息；将所述机械臂待抓取物体的环境状态信息输入至所述抓取奖励函数，得到抓取奖励信息；基于所述渐进奖励信息和所述抓取奖励信息确定奖励信息。3.根据权利要求2所述的方法，其特征在于，所述渐进奖励函数为：r
tendency
＝v(s
t+1
)
‑
v(s
t
)；其中，r
tendency
表示渐进奖励函数，v(s
t
)表示当前环境状态的价值函数，v(s
t+1
)表示下一环境状态的价值函数。4.根据权利要求2所述的方法，其特征在于，所述抓取奖励函数为：其中，r
grasping
表示抓取奖励函数，v(s
t
)表示当前环境状态的价值函数，grasp∩v(s
t
)表示机械臂抓取到物体并且当前环境状态的价值函数大于预设价值阈值，δ表示预设价值阈值。5.根据权利要求1所述的方法，其特征在于，所述基于所述机械臂待抓取物体的环境状态信息、所述机械臂待抓取物体的环境状态信息对应的动作信息和所述奖励信息对待训练模型进行训练，得到机械臂抓取模型，包括：基于所述奖励信息确定评论家网络层的损失，基于所述评论家网络层的损失更新评论家网络层的网络参数；基于所述机械臂待抓取物体的环境状态信息、所述机械臂待抓取物体的环境状态信息对应的动作信息和所述奖励信息确定演员网络层的损失，基于所述演员网络层的损失更新演员网络层的网络参数；直至满足所述待训练模型的停止训练条件，得到机械臂抓取模型。6.根据权利要求5所述的方法，其特征在于...

【专利技术属性】
技术研发人员：王俊伟，尚鹏，王通，吴继鹏，苏栋楠，
申请(专利权)人：中国科学院深圳先进技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人