The application provides a prediction method and system for the rotation speed of the depth enhanced learning of table tennis robot. The prediction method includes normalizing the position sequence of table tennis with equal time interval, inputting the normalization sequence into the depth LSTM network, inputting the state vector of the LSTM into the depth neural network of the incident rotation estimation to obtain the incident rotation speed, and calculating the depth Reward feedback of reinforcement learning; combine the position sequence of table tennis coming from the current hitting process, the incident rotation speed of table tennis and reward feedback into a hitting memory, and store them in the memory; randomly select at least one memory from the memory, input the state vector of LSTM and the incident rotation speed of table tennis into reward feedback estimation depth neural network, and output reward feedback In addition, the back propagation and parameter updating of the depth neural network of incident rotation estimation and reward feedback estimation are carried out. The application shall be able to return the ball accurately when rotating the ball.
【技术实现步骤摘要】
乒乓球机器人的深度强化学习旋转速度预测方法及系统
本申请属于乒乓球机器人
,具体涉及一种乒乓球机器人的深度强化学习旋转速度预测方法及系统。
技术介绍
乒乓球机器人是指能够将本方半球台反弹之后的乒乓球击打到对方半球台的自动化装置,它能够实现乒乓球多回合的对打竞技,可以广泛地应用于专业运动员的训练和业余爱好者的互动。现阶段,国内外不少研究机构已经实现了乒乓球机器人击球的目标,然而,乒乓球机器人仍然普遍存在对转速较快的旋转球不能准确回球的不足。现有关于乒乓球机器人的击球运动控制很少考虑乒乓球的旋转速度,乒乓球机器人更多的是直接利用无旋转的模型进行回球,这使得乒乓球机器人难以对转速较快的旋转球进行准确回球。现有对乒乓球旋转速度的预测方法,通过复杂的辅助系统(如云台加高速相机)捕捉乒乓球的局部特征(如商标),进而计算得到乒乓球的旋转速度。这类依赖辅助的云台系统较为复杂,对相机的帧率要求很高,且在局部特征不能被相机采集时(如商标在乒乓球背面)不能有效做出旋转速度估计。
技术实现思路
为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种乒乓球机器人的深度强化学习旋转速度预测方法及系统。根据本申请实施例的第一方面,本申请提供了一种乒乓球机器人的深度强化学习旋转速度预测方法,用于对乒乓球的入射旋转速度进行深度强化学习预测,其包括以下步骤:将等时间间隔的乒乓球来球位置序列归一化,得到归一化序列;将归一化序列输入到深度LSTM网络中,得到LSTM的状态向量;将LSTM的状态 ...
【技术保护点】
1.一种乒乓球机器人的深度强化学习旋转速度预测方法,用于对乒乓球的入射旋转速度进行深度强化学习预测,其特征在于,包括以下步骤:/n将等时间间隔的乒乓球来球位置序列归一化,得到归一化序列;/n将归一化序列输入到深度LSTM网络中,得到LSTM的状态向量;/n将LSTM的状态向量输入到入射旋转估计深度神经网络中,得到入射旋转速度;/n采集机器人根据乒乓球入射旋转速度完成击球动作后的乒乓球实际回球落点空间位置和乒乓球实际回球过网高度,并根据采集到的乒乓球实际回球落点空间位置和乒乓球实际回球过网高度,以及预设的回球落点空间位置和预设的过网高度,计算得到深度强化学习的奖励反馈;/n将当前次击球过程的乒乓球来球位置序列、乒乓球入射旋转速度和奖励反馈组合成一次击球记忆,存入记忆库中;/n每次击球完成后,从记忆库中随机选取至少一条记忆,将LSTM的状态向量和乒乓球入射旋转速度输入到奖励反馈估计深度神经网络中,输出奖励反馈估计,并对入射旋转估计深度神经网络和奖励反馈估计深度神经网络进行反向传播和参数更新。/n
【技术特征摘要】
1.一种乒乓球机器人的深度强化学习旋转速度预测方法,用于对乒乓球的入射旋转速度进行深度强化学习预测,其特征在于,包括以下步骤:
将等时间间隔的乒乓球来球位置序列归一化,得到归一化序列;
将归一化序列输入到深度LSTM网络中,得到LSTM的状态向量;
将LSTM的状态向量输入到入射旋转估计深度神经网络中,得到入射旋转速度;
采集机器人根据乒乓球入射旋转速度完成击球动作后的乒乓球实际回球落点空间位置和乒乓球实际回球过网高度,并根据采集到的乒乓球实际回球落点空间位置和乒乓球实际回球过网高度,以及预设的回球落点空间位置和预设的过网高度,计算得到深度强化学习的奖励反馈;
将当前次击球过程的乒乓球来球位置序列、乒乓球入射旋转速度和奖励反馈组合成一次击球记忆,存入记忆库中;
每次击球完成后,从记忆库中随机选取至少一条记忆,将LSTM的状态向量和乒乓球入射旋转速度输入到奖励反馈估计深度神经网络中,输出奖励反馈估计,并对入射旋转估计深度神经网络和奖励反馈估计深度神经网络进行反向传播和参数更新。
2.根据权利要求1所述的乒乓球机器人的深度强化学习旋转速度预测方法,其特征在于,所述将等时间间隔的乒乓球来球位置序列归一化的过程为:
Pin_normed[n]=-1+2*(Pin[n]-Pmin)/(Pmax-Pmin),
式中,Pin_normed[n]表示归一化序列,Pin[n]表示n点乒乓球来球位置序列,Pmin表示乒乓球在x、y和z轴三个方向上位置最小值的向量,Pmax表示乒乓球在x、y和z轴三个方向上位置最大值的向量。
3.根据权利要求1所述的乒乓球机器人的深度强化学习旋转速度预测方法,其特征在于,所述入射旋转估计深度神经网络包括m层,具体为:
m层入射旋转估计深度神经网络的最后一层不使用激活函数,其余层使用Relu函数作为激活函数;
式中,Weighti和biasi均为第i+1层网络参数,Layer(i)为第i+1层网络输出,Win为入射旋转估计深度神经网络输出的乒乓球入射旋转速度。
4.根据权利要求1或2或3所述的乒乓球机器人的深度强化学习旋转速度预测方法,其特征在于,所述深度强化学习的奖励反馈为:
式中,distance_loss表示实际回球落点空间位置的偏差损失,height_loss表示过网高度的偏差损失。
5.根据权利要求4所述的乒乓球机器人的深度强化学习旋转速度预测方法,其特征在于,所述实际回球落点空间位置的偏差损失distance_loss通过下式计算得到:
系数a0,a1,a2,b1,b2以及取值范围的边界c1,c2满足以下约束:
6.根据权利要求4所述的乒乓球机器人的深度强化学习旋转速度预测方法,其特征在于,所述过网高度的偏差损失height_loss通过下式计算得到:
系数d0,d1,d2,e1,e2以及取值范围的边界f1,f2满足以下约束:
7.根据权利要求1或2或3所述的乒乓球...
【专利技术属性】
技术研发人员:杨跞,贺琪欲,张海波,许楠,
申请(专利权)人:中科新松有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。