乒乓球机器人灵活击球策略的实现方法、系统及存储介质技术方案

技术编号:35097967 阅读:24 留言:0更新日期:2022-10-01 17:02
本发明专利技术公开了一种乒乓球机器人灵活击球策略的实现方法,方法包括:在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;自监督学习方法的任务包括异常轨迹的修正与轨迹预测;将特征提取器迁移至现实环境中进行迁移式学习以对特征提取器进行再训练;迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;将特征提取器应用于强化学习中,得到击球策略;强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;击球策略直接输出乒乓球机器人的关节位置。本发明专利技术结合了自监督学习、强化学习以及迁移学习,可大幅降低机器人与现实环境交互次数,提升机器人击球策略灵活性。提升机器人击球策略灵活性。提升机器人击球策略灵活性。

【技术实现步骤摘要】
乒乓球机器人灵活击球策略的实现方法、系统及存储介质


[0001]本专利技术涉及体育机器人
,特别是涉及一种乒乓球机器人灵活击球策略的实现方法、系统及存储介质。

技术介绍

[0002]乒乓球机器人是一种可以和人类进行多回合乒乓球对打的机器人,其可用于对专业运动员进行训练以及与业余爱好者进行互动对战,在国内乒乓球运动广泛普及的情况下,乒乓球机器人越来越受到欢迎。乒乓球机器人用于专业运动员的实战训练中时,需要有足够的对战能力,才能满足专业运动员的训练需求,这就对乒乓球机器人的击球策略提出了较高的要求。
[0003]现有技术中,实现乒乓球机器人击球策略主要通过以下方法实现:
[0004](1)建立乒乓球空气动力学模型与碰撞模型,预测乒乓球轨迹;建立球拍反弹模型与机器人运动学模型确定合理的击球策略(中科院自动化研究所);
[0005](2)采用物理学模型方法来进行轨迹预测,并依据物理学模型手动设置击球点;改进DDPG强化学习算法与MLP神经网络确定乒乓球机器人的球拍位姿与拍速;机器人运动学模型完成击球策略(图宾根大学6自由度KUKA机器人);
[0006](3)以并联机器人作为击球策略的执行机构,手动设置击球目标点与过网时的高度;通过LSTM神经网络进行乒乓球轨迹特征提取,MLP神经网络确定机器人末端的拍速和姿态;机器人运动学模型完成击球策略(新松机器人)。
[0007]上述现有技术存在如下技术问题:
[0008](1)基于物理学分析的乒乓球轨迹预测时,面对复杂多变的现实环境时,预测结果具有较大的波动性与一定的滞后性,此外由于现有的国际标准中,未对乒乓球拍的弹性进行规定,因此依靠球拍反弹模型制定击球策会出现一定的偏差,导致乒乓球机器人无法适应不同的球拍;采用物理学模型进行轨迹预测,需获取较为精确的乒乓球转速以排除马格努斯力影响,但由于乒乓球商标的面积过小,因此难以实时测量转速,限制了基于物理学模型轨迹预测的精度;通过预测轨迹与人为给定条件计算出乒乓球击球位置限制了乒乓球机器人自主学习挑选合适击球点的能力,影响了乒乓球机器人的击球表现;
[0009](2)并联机器人尽管有着快速响应的优点,但由于机器人工作空间过小,因此并联机器人仅可应用于特制的乒乓球桌中;此外,现有的乒乓球机器人均没有冗余自由度,因此采用机器人运动学模型来进行机器人运动控制均存在唯一最优解(最小位移原则),灵活度较低。

技术实现思路

[0010]专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种自监督学习、强化学习以及迁移学习相结合、可大幅降低机器人与现实环境交互次数,提升机器人击球策略灵活性的乒乓球机器人灵活击球策略的实现方法、系统及存储介质。
[0011]技术方案:为实现上述目的,本专利技术的乒乓球机器人灵活击球策略的实现方法,所述方法包括:
[0012]在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;所述自监督学习方法的任务有两个,第一任务为乒乓球轨迹的异常值填空与补充,第二任务为乒乓球轨迹的预测;
[0013]将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练;所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;
[0014]将所述特征提取器应用于强化学习中,得到击球策略;所述强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;所述击球策略直接输出乒乓球机器人的关节位置。
[0015]进一步地,所述在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器包括:
[0016]基于乒乓球仿真环境进行自监督学习样本采集,所述自监督学习样本包括乒乓球随机噪声坐标、乒乓球仿真轨迹真实坐标、以及乒乓球仿真轨迹未来坐标;
[0017]将所述自监督学习样本输入自监督学习网络进行模型训练,得到特征提取器;所述自监督学习网络中,完成所述第一任务的网络结构主体为双向LSTM,完成所述第二任务的网络结构主体也为双向LSTM。
[0018]进一步地,所述真实乒乓球轨迹的获得方法为:
[0019]对现实环境中的乒乓球轨迹进行采样;
[0020]对所述乒乓球轨迹进行物理学分析,得到所述真实乒乓球轨迹。
[0021]进一步地,所述针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏包括:
[0022]使第一轨迹阶段与第二轨迹阶段的奖赏和球与机器人球拍的距离成反比;使第三轨迹阶段的奖赏和球与目标点的距离成反比;其中,所述第一轨迹阶段与第二轨迹阶段分别为对手发球轨迹阶段与机器人接球轨迹,所述第三轨迹阶段与第四轨迹阶段分别为机器人反击轨迹与对手接球轨迹。
[0023]进一步地,每个所述轨迹阶段的奖赏具体为:
[0024][0025]其中,reward为奖赏;d
racket
为球与球拍之间的距离;d
target
为球与目标点的距离;τ
s
=0、1、2、3分别代表第一、二、三、四轨迹阶段。
[0026]进一步地,所述乒乓球机器人具有7个自由度,其包含一个包含6个旋转关节的机械臂以及一个直线模组,所述直线模组能够驱动所述机械臂做平移运动。
[0027]乒乓球机器人灵活击球策略的实现系统,其包括:
[0028]自监督学习模块,其用于在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;所述自监督学习方法的任务有两个,第一任务为乒乓球轨迹的异常值填空与补充,第二任务为乒乓球轨迹的预测;
[0029]迁移学习模块,其用于将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练;所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;
[0030]强化学习模块,其用于将所述特征提取器应用于强化学习中,得到击球策略;所述强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;所述击球策略直接输出乒乓球机器人的关节位置。
[0031]存储介质,其内存储有可执行程序,所述可执行程序被控制器执行以实现上述的乒乓球机器人灵活击球策略的实现方法。
[0032]有益效果:(1)本专利技术提出了一种将自监督学习、迁移学习、强化学习相结合的击球策略,可以大幅度降低真实机器人与现实环境的交互次数,并可以使机器人的整体表现大幅度上升;(2)本专利技术提出了用于现实环境迁移学习的数据收集方法,解决了迁移学习时缺乏真实乒乓球轨迹作为样本标签的问题;(3)本专利技术提出了强化学习策略直接输出机器人关节位置,这可以让机器人运动学最优解的优化目标更加偏向于击球得分而不是功率最低、关节位移最小等其他目标。
附图说明
[0033]图1为乒乓球机器人灵活击球策略的实现方法的流程示意图;
[0034]图2为自监督学习的整体网络构架图;
[0035]图3为基于现实数据的迁移式学习的方案示意图;
[0036]图4为乒乓球机器人本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.乒乓球机器人灵活击球策略的实现方法,其特征在于,所述方法包括:在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器;所述自监督学习方法的任务有两个,第一任务为乒乓球轨迹的异常值填空与补充,第二任务为乒乓球轨迹的预测;将所述特征提取器迁移至现实环境中进行迁移式学习以对所述特征提取器进行再训练;所述迁移式学习的数据标签是通过采集的乒乓球轨迹与物理学分析得出的真实乒乓球轨迹;将所述特征提取器应用于强化学习中,得到击球策略;所述强化学习中,针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏;所述击球策略直接输出乒乓球机器人的关节位置。2.根据权利要求1所述的乒乓球机器人灵活击球策略的实现方法,其特征在于,所述在仿真环境下通过自监督学习方法训练出乒乓球轨迹的特征提取器包括:基于乒乓球仿真环境进行自监督学习样本采集,所述自监督学习样本包括乒乓球随机噪声坐标、乒乓球仿真轨迹真实坐标、以及乒乓球仿真轨迹未来坐标;将所述自监督学习样本输入自监督学习网络进行模型训练,得到特征提取器;所述自监督学习网络中,完成所述第一任务的网络结构主体为双向LSTM,完成所述第二任务的网络结构主体也为双向LSTM。3.根据权利要求1所述的乒乓球机器人灵活击球策略的实现方法,其特征在于,所述真实乒乓球轨迹的获得方法为:对现实环境中的乒乓球轨迹进行采样;对所述乒乓球轨迹进行物理学分析,得到所述真实乒乓球轨迹。4.根据权利要求1所述的乒乓球机器人灵活击球策略的实现方法,其特征在于,所述针对组成一个完整乒乓球轨迹的四个轨迹阶段分别设置奖赏包括:使第一轨迹阶段与第二轨迹阶段的奖赏和球与机器人球拍的距离成反比;使第三轨迹阶段的奖赏和球与目标点的距离成反比;其中,所述第一轨...

【专利技术属性】
技术研发人员:胡晓屹毛越张邦森
申请(专利权)人:乒乓动量机器人昆山有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1