【技术实现步骤摘要】
本专利技术涉及计算机运动控制领域,尤其涉及一种充电枪插拔任务执行方法、装置、机器人及存储介质。
技术介绍
1、现有的充电枪插拔任务都是在结构化的环境下,操作单个充电枪和单一型号的车。充电枪种类多样,实际使用环境复杂。现有算法针对性强,泛化性不足,在开放的非结构化环境(如停车场)中,所部署人形机器人不能成功处理未曾预先设置充电枪型号和目标车辆的充电枪插拔任务。
技术实现思路
1、有鉴于此,本专利技术的目的是为了克服现有技术中的不足,提供一种充电枪插拔任务执行方法、装置、机器人及存储介质,用于通过离线训练进行行为克隆,得到预训练策略网络,再通过在线训练学习落在离线训练分布之外的新对象,以得到目标策略网络,从而可利用目标策略网络实现在线自适应的充电枪插拔任务。
2、本专利技术提供如下技术方案:
3、第一方面,本专利技术提出一种充电枪插拔任务执行方法,包括:
4、获取机器人执行历史充电枪插拔任务时的历史初始观测图像、历史移动操作原语和历史结束图片;
...
【技术保护点】
1.一种充电枪插拔任务执行方法,其特征在于,包括:
2.根据权利要求1所述的充电枪插拔任务执行方法,其特征在于,所述根据所述当前移动操作原语对所述预训练策略网络进行在线训练,得到目标策略网络,包括:
3.根据权利要求2所述的充电枪插拔任务执行方法,其特征在于,所述根据所述当前结束图片调整所述预训练策略网络的网络参数,得到所述目标策略网络,包括:
4.根据权利要求3所述的充电枪插拔任务执行方法,其特征在于,所述根据所述当前任务执行情况确定当前奖励值,包括:
5.根据权利要求1所述的充电枪插拔任务执行方法,其特征在于,所述根
...【技术特征摘要】
1.一种充电枪插拔任务执行方法,其特征在于,包括:
2.根据权利要求1所述的充电枪插拔任务执行方法,其特征在于,所述根据所述当前移动操作原语对所述预训练策略网络进行在线训练,得到目标策略网络,包括:
3.根据权利要求2所述的充电枪插拔任务执行方法,其特征在于,所述根据所述当前结束图片调整所述预训练策略网络的网络参数,得到所述目标策略网络,包括:
4.根据权利要求3所述的充电枪插拔任务执行方法,其特征在于,所述根据所述当前任务执行情况确定当前奖励值,包括:
5.根据权利要求1所述的充电枪插拔任务执行方法,其特征在于,所述根据所述历史初始观测图像、所述历史移动操作原语和所述历史结束图片对初始策略网络进行离线训练,得到预训练策略网络,包括:
<...【专利技术属性】
技术研发人员:刘博,
申请(专利权)人:深圳市优必选科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。