乒乓球机器人的深度强化学习旋转速度预测方法及系统技术方案

技术编号:22565780 阅读:48 留言:0更新日期:2019-11-16 12:19
本申请提供了一种乒乓球机器人的深度强化学习旋转速度预测方法及系统,预测方法包括将等时间间隔的乒乓球来球位置序列归一化;将归一化序列输入到深度LSTM网络中;将得到的LSTM的状态向量输入到入射旋转估计深度神经网络中,得到入射旋转速度;计算深度强化学习的奖励反馈;将当前次击球过程的乒乓球来球位置序列、乒乓球入射旋转速度和奖励反馈组合成一次击球记忆,存入记忆库中;从记忆库中随机选取至少一条记忆,将LSTM的状态向量和乒乓球入射旋转速度输入到奖励反馈估计深度神经网络中,输出奖励反馈估计,并对入射旋转估计深度神经网络和奖励反馈估计深度神经网络进行反向传播和参数更新。本申请应对旋转球时能够准确回球。

Prediction method and system of rotation speed of table tennis robot based on deep reinforcement learning

The application provides a prediction method and system for the rotation speed of the depth enhanced learning of table tennis robot. The prediction method includes normalizing the position sequence of table tennis with equal time interval, inputting the normalization sequence into the depth LSTM network, inputting the state vector of the LSTM into the depth neural network of the incident rotation estimation to obtain the incident rotation speed, and calculating the depth Reward feedback of reinforcement learning; combine the position sequence of table tennis coming from the current hitting process, the incident rotation speed of table tennis and reward feedback into a hitting memory, and store them in the memory; randomly select at least one memory from the memory, input the state vector of LSTM and the incident rotation speed of table tennis into reward feedback estimation depth neural network, and output reward feedback In addition, the back propagation and parameter updating of the depth neural network of incident rotation estimation and reward feedback estimation are carried out. The application shall be able to return the ball accurately when rotating the ball.

【技术实现步骤摘要】
乒乓球机器人的深度强化学习旋转速度预测方法及系统
本申请属于乒乓球机器人
,具体涉及一种乒乓球机器人的深度强化学习旋转速度预测方法及系统。
技术介绍
乒乓球机器人是指能够将本方半球台反弹之后的乒乓球击打到对方半球台的自动化装置,它能够实现乒乓球多回合的对打竞技,可以广泛地应用于专业运动员的训练和业余爱好者的互动。现阶段,国内外不少研究机构已经实现了乒乓球机器人击球的目标,然而,乒乓球机器人仍然普遍存在对转速较快的旋转球不能准确回球的不足。现有关于乒乓球机器人的击球运动控制很少考虑乒乓球的旋转速度,乒乓球机器人更多的是直接利用无旋转的模型进行回球,这使得乒乓球机器人难以对转速较快的旋转球进行准确回球。现有对乒乓球旋转速度的预测方法,通过复杂的辅助系统(如云台加高速相机)捕捉乒乓球的局部特征(如商标),进而计算得到乒乓球的旋转速度。这类依赖辅助的云台系统较为复杂,对相机的帧率要求很高,且在局部特征不能被相机采集时(如商标在乒乓球背面)不能有效做出旋转速度估计。
技术实现思路
为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种乒乓球机器人的深度强化学习旋转速度预测方法及系统。根据本申请实施例的第一方面,本申请提供了一种乒乓球机器人的深度强化学习旋转速度预测方法,用于对乒乓球的入射旋转速度进行深度强化学习预测,其包括以下步骤:将等时间间隔的乒乓球来球位置序列归一化,得到归一化序列;将归一化序列输入到深度LSTM网络中,得到LSTM的状态向量;将LSTM的状态向量输入到入射旋转估计深度神经网络中,得到入射旋转速度;采集机器人根据乒乓球入射旋转速度完成击球动作后的乒乓球实际回球落点空间位置和乒乓球实际回球过网高度,并根据采集到的乒乓球实际回球落点空间位置和乒乓球实际回球过网高度,以及预设的回球落点空间位置和预设的过网高度,计算得到深度强化学习的奖励反馈;将当前次击球过程的乒乓球来球位置序列、乒乓球入射旋转速度和奖励反馈组合成一次击球记忆,存入记忆库中;每次击球完成后,从记忆库中随机选取至少一条记忆,将LSTM的状态向量和乒乓球入射旋转速度输入到奖励反馈估计深度神经网络中,输出奖励反馈估计,并对入射旋转估计深度神经网络和奖励反馈估计深度神经网络进行反向传播和参数更新。上述乒乓球机器人的深度强化学习旋转速度预测方法中,所述将等时间间隔的乒乓球来球位置序列归一化的过程为:Pin_normed[n]=-1+2*(Pin[n]-Pmin)/(Pmax-Pmin),式中,Pin_normed[n]表示归一化序列,Pin[n]表示n点乒乓球来球位置序列,Pmin表示乒乓球在x、y和z轴三个方向上位置最小值的向量,Pmax表示乒乓球在x、y和z轴三个方向上位置最大值的向量。上述乒乓球机器人的深度强化学习旋转速度预测方法中,所述入射旋转估计深度神经网络包括m层,具体为:m层入射旋转估计深度神经网络的最后一层不使用激活函数,其余层使用Relu函数作为激活函数;式中,Weighti和biasi均为第i+1层网络参数,Layer(i)为第i+1层网络输出,Win为入射旋转估计深度神经网络输出的乒乓球入射旋转速度。上述乒乓球机器人的深度强化学习旋转速度预测方法中,所述深度强化学习的奖励反馈为:式中,distance_loss表示实际回球落点空间位置的偏差损失,height_loss表示过网高度的偏差损失。进一步地,所述实际回球落点空间位置的偏差损失distance_loss通过下式计算得到:系数a0,a1,a2,b1,b2以及取值范围的边界c1,c2满足以下约束:进一步地,所述过网高度的偏差损失height_loss通过下式计算得到:系数d0,d1,d2,e1,e2以及取值范围的边界f1,f2满足以下约束:上述乒乓球机器人的深度强化学习旋转速度预测方法中,所述奖励反馈估计深度神经网络包括k层,具体为:k层奖励反馈估计深度神经网络的最后一层不使用激活函数,其余层使用Relu函数作为激活函数;式中,Weight2s、Weight2w和bias20均为第1层网络参数,Weight2j和bias2j为第j+1层网络参数,layer(j)为第j+1层网络输出。上述乒乓球机器人的深度强化学习旋转速度预测方法中,所述入射旋转估计深度神经网络的反向传播和参数更新的目标函数为:最小化-R_predict,Minimize:-R_predict(θ1),θ1表示m层入射旋转估计深度神经网络的所有网络参数;所述奖励反馈估计深度神经网络的反向传播和参数更新的目标函数为:最小化R_predict和R的均方误差,Minimize:MSE(R_predict-R)(θ2),θ2表示k层奖励反馈估计深度神经网络的所有网络参数。进一步地,所述网络参数θ1和θ2使用软更新方式进行更新,具体为:式中,θ1'表示网络参数θ1的目标值,θ2'表示网络参数θ2的目标值,τ表示软更新参数。根据本申请实施例的第二方面,本申请还提供了一种乒乓球机器人的深度强化学习旋转速度预测系统,其包括:归一化模块,用于将等时间间隔的乒乓球来球位置序列归一化,得到归一化序列;LSTM网络,用于根据获取的归一化序列得到状态向量;入射旋转估计深度神经网络,用于根据获取的状态向量得到入射旋转速度;奖励反馈计算模块,用于根据采集到的乒乓球实际回球落点空间位置和乒乓球实际回球过网高度,以及预设的回球落点空间位置和预设的过网高度计算得到深度强化学习的奖励反馈;记忆库,用于存储至少一次击球记忆,其中,一次击球记忆包括前次击球过程的乒乓球来球位置序列、乒乓球入射旋转速度和奖励反馈;奖励反馈估计深度神经网络,用于根据从记忆库中随机选取的至少一条记忆中的状态向量和乒乓球入射旋转速度得到奖励反馈估计;网络参数更新模块,利用从记忆库中随机选取的至少一条记忆对入射旋转估计深度神经网络的网络参数和奖励反馈估计深度神经网络的网络参数进行更新。根据本申请实施例的第三方面,本申请还提供了一种乒乓球机器人,其包括:视觉预测模块,通过采集若干乒乓球的轨迹点,预测乒乓球的飞行轨迹,并获取乒乓球进入机器人作业空间后的最佳击球点的位置、入射速度、入射旋转速度和剩余时间;其中,入射旋转速度采用上述任一项所述的乒乓球机器人的深度强化学习旋转速度预测方法得到;落点控制模块,用于根据预设的击打之后乒乓球在对方半球台的落点空间位置和飞行时间,计算得到击打之后乒乓球的反射速度和反射旋转速度;击球状态计算模块,利用乒乓球与球拍的碰撞模型,根据乒乓球在击球点位置处的入射速度、反射速度、入射旋转速度和反射旋转速度,计算得到球拍的速度和姿态;运动规划模块,用于驱动机器人末端球拍以计算得到的速度本文档来自技高网...

【技术保护点】
1.一种乒乓球机器人的深度强化学习旋转速度预测方法,用于对乒乓球的入射旋转速度进行深度强化学习预测,其特征在于,包括以下步骤:/n将等时间间隔的乒乓球来球位置序列归一化,得到归一化序列;/n将归一化序列输入到深度LSTM网络中,得到LSTM的状态向量;/n将LSTM的状态向量输入到入射旋转估计深度神经网络中,得到入射旋转速度;/n采集机器人根据乒乓球入射旋转速度完成击球动作后的乒乓球实际回球落点空间位置和乒乓球实际回球过网高度,并根据采集到的乒乓球实际回球落点空间位置和乒乓球实际回球过网高度,以及预设的回球落点空间位置和预设的过网高度,计算得到深度强化学习的奖励反馈;/n将当前次击球过程的乒乓球来球位置序列、乒乓球入射旋转速度和奖励反馈组合成一次击球记忆,存入记忆库中;/n每次击球完成后,从记忆库中随机选取至少一条记忆,将LSTM的状态向量和乒乓球入射旋转速度输入到奖励反馈估计深度神经网络中,输出奖励反馈估计,并对入射旋转估计深度神经网络和奖励反馈估计深度神经网络进行反向传播和参数更新。/n

【技术特征摘要】
1.一种乒乓球机器人的深度强化学习旋转速度预测方法,用于对乒乓球的入射旋转速度进行深度强化学习预测,其特征在于,包括以下步骤:
将等时间间隔的乒乓球来球位置序列归一化,得到归一化序列;
将归一化序列输入到深度LSTM网络中,得到LSTM的状态向量;
将LSTM的状态向量输入到入射旋转估计深度神经网络中,得到入射旋转速度;
采集机器人根据乒乓球入射旋转速度完成击球动作后的乒乓球实际回球落点空间位置和乒乓球实际回球过网高度,并根据采集到的乒乓球实际回球落点空间位置和乒乓球实际回球过网高度,以及预设的回球落点空间位置和预设的过网高度,计算得到深度强化学习的奖励反馈;
将当前次击球过程的乒乓球来球位置序列、乒乓球入射旋转速度和奖励反馈组合成一次击球记忆,存入记忆库中;
每次击球完成后,从记忆库中随机选取至少一条记忆,将LSTM的状态向量和乒乓球入射旋转速度输入到奖励反馈估计深度神经网络中,输出奖励反馈估计,并对入射旋转估计深度神经网络和奖励反馈估计深度神经网络进行反向传播和参数更新。


2.根据权利要求1所述的乒乓球机器人的深度强化学习旋转速度预测方法,其特征在于,所述将等时间间隔的乒乓球来球位置序列归一化的过程为:
Pin_normed[n]=-1+2*(Pin[n]-Pmin)/(Pmax-Pmin),
式中,Pin_normed[n]表示归一化序列,Pin[n]表示n点乒乓球来球位置序列,Pmin表示乒乓球在x、y和z轴三个方向上位置最小值的向量,Pmax表示乒乓球在x、y和z轴三个方向上位置最大值的向量。


3.根据权利要求1所述的乒乓球机器人的深度强化学习旋转速度预测方法,其特征在于,所述入射旋转估计深度神经网络包括m层,具体为:



m层入射旋转估计深度神经网络的最后一层不使用激活函数,其余层使用Relu函数作为激活函数;
式中,Weighti和biasi均为第i+1层网络参数,Layer(i)为第i+1层网络输出,Win为入射旋转估计深度神经网络输出的乒乓球入射旋转速度。


4.根据权利要求1或2或3所述的乒乓球机器人的深度强化学习旋转速度预测方法,其特征在于,所述深度强化学习的奖励反馈为:



式中,distance_loss表示实际回球落点空间位置的偏差损失,height_loss表示过网高度的偏差损失。


5.根据权利要求4所述的乒乓球机器人的深度强化学习旋转速度预测方法,其特征在于,所述实际回球落点空间位置的偏差损失distance_loss通过下式计算得到:



系数a0,a1,a2,b1,b2以及取值范围的边界c1,c2满足以下约束:





6.根据权利要求4所述的乒乓球机器人的深度强化学习旋转速度预测方法,其特征在于,所述过网高度的偏差损失height_loss通过下式计算得到:



系数d0,d1,d2,e1,e2以及取值范围的边界f1,f2满足以下约束:





7.根据权利要求1或2或3所述的乒乓球...

【专利技术属性】
技术研发人员:杨跞贺琪欲张海波许楠
申请(专利权)人:中科新松有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1