网络训练方法、操作控制方法、装置、存储介质和设备制造方法及图纸

技术编号:18351350 阅读:27 留言:0更新日期:2018-07-02 01:12
本发明专利技术实施例提供一种网络训练方法、操作控制方法、装置、存储介质和电子设备。网络训练方法包括:从至少一个训练主机分别接收状态动作样本数据,状态动作样本数据至少包括操作状态数据以及相应的动作控制数据;使用状态动作样本数据,训练用于操作控制的目标神经网络;将经过训练的目标神经网络分别发送给至少一个训练主机,以使得所述至少一个训练主机根据目标神经网络生成新的状态动作样本数据。由此,可以分布式的训练方式,不断地通过各个训练主机获取到大量的用于智能操作控制的训练样本,提高了采集训练样本的效率。此外,还能够使得训练主机持续地通过经训练的目标神经网络来获取更多的训练样本,从而提高了采集到的训练样本的质量。

【技术实现步骤摘要】
网络训练方法、操作控制方法、装置、存储介质和设备
本专利技术实施例涉及人工智能技术,尤其涉及一种网络训练方法、操作控制方法、装置、存储介质和电子设备。
技术介绍
在基于神经网络的各种智能控制技术(各种机器人的操纵控制)中,由于(机器人)需要应对很多不简单的、涉及多种操作参数和环境参数的操作环境,因此需要针对多种操作环境下采集大量的样本,再使用这些样本对神经网络进行训练,以获得实现预定功能的神经网络。
技术实现思路
本专利技术实施例的目的在于,提供一种网络训练技术和操作控制技术。根据本专利技术实施例的第一方面,提供一种网络训练方法,包括:从至少一个训练主机分别接收状态动作样本数据,所述状态动作样本数据至少包括操作状态数据以及相应的动作控制数据;使用所述状态动作样本数据,训练用于操作控制的目标神经网络;将经过训练的目标神经网络分别发送给所述至少一个训练主机,以使得所述至少一个训练主机根据所述目标神经网络生成新的状态动作样本数据。可选地,所述状态动作样本数据与用于操作控制的操作环境对应;所述从至少一个训练主机分别接收状态动作样本数据,还包括:从至少一个训练主机分别接收与所述状态动作样本数据对应的操作环境的数据。可选地,在从至少一个训练主机分别接收状态动作样本数据之后,所述方法还包括:将接收到的状态动作样本数据以及对应的操作环境的数据存储到样本数据库中;在使用接收到的状态动作样本数据,训练目标神经网络之前,所述方法还包括:从所述样本数据库获取与预定的操作环境对应的状态动作样本数据。相应地,所述使用接收到的状态动作样本数据,训练目标神经网络包括:使用从所述样本数据库获取到的状态动作样本数据,训练所述目标神经网络。可选地,在从至少一个训练主机分别接收状态动作样本数据之前,所述方法还包括:初始化所述目标神经网络,并且将初始化的目标神经网络发送给至少一个所述训练主机,以使得所述训练主机根据所述目标神经网络生成所述状态动作样本数据。可选地,所述至少将经过训练的目标神经网络分别发送给至少一个所述训练主机包括:将经过训练的目标神经网络以及目标操作环境的数据分别发送给至少一个所述训练主机,发送给至少一个所述训练主机的所述目标操作环境的数据对应于至少一种操作环境。可选地,所述目标神经网络包括控制策略网络和价值网络,包括所述控制策略网络用于生成机械臂抓取物体的抓取控制数据,所述价值网络用于对控制策略网络生成的抓取控制数据生成奖励估计数据。可选地,所述动作控制数据为抓取控制数据,所述状态动作样本数据还包括控制结果数据和动作控制奖励数据。可选地,所述操作环境的数据包括机械臂的物理参数数据、抓取物体的参数数据和抓取环境的数据。根据本专利技术实施例的第二方面,提供一种网络训练方法,包括:通过本地的目标神经网络,获取操作状态数据的动作控制数据;向中央训练服务器发送包括所述操作状态数据和相应的动作控制数据的状态动作样本数据;从中央训练服务器接收经过训练的目标神经网络;将接收到的目标神经网络设置为本地的目标神经网络,以根据本地的目标神经网络采集新的状态动作样本数据。可选地,在通过本地的目标神经网络,获取操作状态数据的动作控制数据之前,所述方法还包括:接收初始化的目标神经网络,并且将所述初始化的目标神经网络设置为本地的目标神经网络。可选地,所述目标神经网络包括控制策略网络和价值网络,所述控制策略网络用于生成机械臂抓取物体的抓取控制数据,所述价值网络用于对控制策略网络生成的抓取控制数据生成奖励估计数据。可选地,所述从中央训练服务器接收经过训练的目标神经网络包括:从中央训练服务器接收经过训练的目标神经网络以及目标操作环境的数据。相应地,所述将接收到的目标神经网络设置为本地的目标神经网络还包括:根据所述目标操作环境的数据设置用于产生所述操作状态数据的操作环境。可选地,所述根据所述目标操作环境的数据设置用于产生所述操作状态数据的操作环境,包括:根据所述目标操作环境的数据,为机械臂抓取仿真平台设置所述操作环境。可选地,在通过本地的目标神经网络,获取操作状态数据的动作控制数据之前,所述方法还包括:通过设置了目标操作环境的机械臂抓取仿真平台,获取所述操作状态数据。可选地,所述通过本地的目标神经网络,获取操作状态数据的动作控制数据包括:通过所述控制策略网络,获取操作状态数据的抓取控制数据。相应地,在向中央训练服务器发送包括所述操作状态数据和相应的动作控制数据的状态动作样本数据之前,所述方法还包括:通过所述机械臂抓取仿真平台,获取所述操作状态数据和所述抓取控制数据的控制结果数据以及动作控制奖励数据。相应地,所述向中央训练服务器发送包括所述操作状态数据和相应的动作控制数据的状态动作样本数据包括:向中央训练服务器发送包括与当前的操作环境对应的状态动作样本数据,所述状态动作样本数据包括所述操作状态数据、所述抓取控制数据、所述控制结果数据以及动作控制奖励数据。可选地,所述操作环境的数据包括机械臂的物理参数数据、抓取物体的参数数据和抓取环境的数据。可选地,所述根据接收到的操作环境的数据,为机械臂抓取仿真平台设置所述操作环境,包括:根据所述目标操作环境的数据,设置所述机械臂抓取仿真平台的抓取环境、抓取物体、以及机械臂的物理参数的数据。根据本专利技术实施例的第三方面,提供一种操作控制方法,包括:获取操作状态数据;通过如前所述任一网络训练方法训练得到的目标神经网络,获取所述操作状态数据的动作控制数据;根据所述动作控制数据,执行相应的控制操作。可选地,所述操作状态数据包括拍摄有被控主体的操作场景图像。可选地,在获取操作状态数据的动作控制数据之前,所述操作控制方法还包括:对所述操作场景图像进行边缘提取和边缘增强操作。可选地,所述目标神经网络包括控制策略网络和价值网络,包括所述控制策略网络用于生成机械臂抓取物体的抓取控制数据,所述价值网络用于对控制策略网络生成的抓取控制数据生成奖励估计数据。根据本专利技术实施例的第四方面,提供一种网络训练装置,包括:样本接收模块,用于从至少一个训练主机分别接收状态动作样本数据,所述状态动作样本数据至少包括操作状态数据以及相应的动作控制数据;网络训练模块,用于使用所述样本接收模块接收的状态动作样本数据,训练用于操作控制的目标神经网络;网络发送模块,用于将经过所述网络训练模块训练的目标神经网络分别发送给所述至少一个训练主机,以使得所述至少一个训练主机根据所述目标神经网络生成新的状态动作样本数据。可选地,所述状态动作样本数据与用于操作控制的操作环境对应;所述样本接收模块还用于从至少一个训练主机分别接收与所述状态动作样本数据对应的操作环境的数据。可选地,所述装置还包括:样本存储模块,用于在所述样本接收模块从至少一个训练主机分别接收状态动作样本数据之后,所述样本存储模块将接收到的状态动作样本数据以及对应的操作环境的数据存储到样本数据库中;样本拣选模块,用于在所述网络训练模块使用接收到的状态动作样本数据,训练目标神经网络之前,从所述样本数据库获取与预定的操作环境对应的状态动作样本数据。相应地,所述网络训练模块用于使用从所述样本数据库获取到的状态动作样本数据,训练所述目标神经网络。可选地,所述装置还包括:网络初始化模块,用于在所述样本接收模块从至少一个训练主机分别接收状态动作样本文档来自技高网...
网络训练方法、操作控制方法、装置、存储介质和设备

【技术保护点】
1.一种网络训练方法,包括:从至少一个训练主机分别接收状态动作样本数据,所述状态动作样本数据至少包括操作状态数据以及相应的动作控制数据;使用所述状态动作样本数据,训练用于操作控制的目标神经网络;将经过训练的目标神经网络分别发送给所述至少一个训练主机,以使得所述至少一个训练主机根据所述目标神经网络生成新的状态动作样本数据。

【技术特征摘要】
1.一种网络训练方法,包括:从至少一个训练主机分别接收状态动作样本数据,所述状态动作样本数据至少包括操作状态数据以及相应的动作控制数据;使用所述状态动作样本数据,训练用于操作控制的目标神经网络;将经过训练的目标神经网络分别发送给所述至少一个训练主机,以使得所述至少一个训练主机根据所述目标神经网络生成新的状态动作样本数据。2.一种网络训练方法,包括:通过本地的目标神经网络,获取操作状态数据的动作控制数据;向中央训练服务器发送包括所述操作状态数据和相应的动作控制数据的状态动作样本数据;从中央训练服务器接收经过训练的目标神经网络;将接收到的目标神经网络设置为本地的目标神经网络,以根据本地的目标神经网络采集新的状态动作样本数据。3.一种操作控制方法,包括:获取操作状态数据;通过如权利要求1所述方法训练得到的目标神经网络,获取所述操作状态数据的动作控制数据;根据所述动作控制数据,执行相应的控制操作。4.一种网络训练装置,包括:样本接收模块,用于从至少一个训练主机分别接收状态动作样本数据,所述状态动作样本数据至少包括操作状态数据以及相应的动作控制数据;网络训练模块,用于使用所述样本接收模块接收的状态动作样本数据,训练用于操作控制的目标神经网络;网络发送模块,用于将经过所述网络训练模块训练的目标神经网络分别发送给所述至少一个训练主机,以使得所述至少一个训练主机根据所述目标神经网络生成新的状态动作样本数据。5.一种网络训练装置,包括:动作控制数据获取模块,用于通过本地的目标神经网络,获取操作状态数据的动作控制数据;样本发送模块,用于向...

【专利技术属性】
技术研发人员:马政刘春晓侯跃南张伟吕健勤
申请(专利权)人:深圳市商汤科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1