一种对练机器人训练方法及装置制造方法及图纸

技术编号：40966479 阅读：2 留言：0更新日期：2024-04-18 20:46

本申请提供了一种对练机器人训练方法及装置。所述方法包括：获取第一训练数据，第一训练数据包括表征动作类型的各动作轨迹的轨迹点，动作轨迹的轨迹点是按照时间步长从动作轨迹提取得到的；利用第一训练数据中各轨迹点，训练高斯混合模型，直至高斯混合模型收敛，获得高斯混合模型的最优模型参数；利用高斯混合回归，根据最优模型参数，生成各时间步的最优轨迹点，以获得期望轨迹，期望轨迹用于指示对练机器人沿着期望轨迹挥动以击打球。本申请使得对练机器人基于期望轨迹学习该动作类型，使得对练机器人基于期望轨迹实现使用该动作类型击打球，实现与用户对练，更好协助用户训练以应对不同情况。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于机器人，尤其涉及一种对练机器人训练方法及装置。

技术介绍

1、目前，对练机器人的功能为发球，根据预设的发球球速，发球频率和落点发射球，以与用户进行对练。但因这种对练机器人不具备除发球外其他功能，无法满足用户的其他对练需求。

技术实现思路

1、本申请实施例提供了一种对练机器人训练方法、装置、电子设备、可读存储介质和计算机程序产品，可以解决对练机器人只会发球而无法满足用户其他需求的问题。

2、第一方面，本申请实施例提供了一种对练机器人训练方法，包括：

3、获取第一训练数据，所述第一训练数据包括表征动作类型的各动作轨迹的轨迹点，所述动作轨迹的轨迹点是按照时间步长从所述动作轨迹提取得到的；

4、利用所述第一训练数据中各轨迹点，训练高斯混合模型，直至所述高斯混合模型收敛，获得所述高斯混合模型的最优模型参数；

5、利用高斯混合回归，根据所述最优模型参数，生成各时间步的最优轨迹点，以获得期望轨迹，所述期望轨迹用于指示对练机器人沿着所述期望轨迹挥动以击打球。

6、在一个实施例中，所述获取第一训练数据，包括：

7、将表征所述动作类型的至少两个初始轨迹进行时间对齐，获得表征所述动作类型的所述动作轨迹；

8、针对各所述动作轨迹，按照所述时间步长从动作轨迹中提取点，获得各时间步的所述轨迹点。

9、在一个实施例中，获得期望轨迹之后，还包括：

10、获取第二训练数据，所述第二训练数据包括各对练场景的场景状态；

11、利用所述第二训练数据，训练强化学习模型，直至所述强化学习模型的预设损失函数的损失值小于预设阈值，获得已训练的强化学习模型，所述已训练的强化学习模型用于根据所述第二训练数据获得优化所述期望轨迹的修正量。

12、在一个实施例中，所述利用所述第二训练数据，训练强化学习模型，直至所述强化学习模型的预设损失函数的损失值小于预设阈值，获得已训练的强化学习模型，包括：

13、针对各对练场景，利用所述强化学习模型，根据所述场景状态确定所述对练机器人按照所述期望轨迹挥动后的奖励值、新场景状态和修正量，所述修正量包括扰动量、时间项中至少一种，所述扰动量用于调整所述期望轨迹的末端轨迹点，所述时间项用于确定所述对练机器人的运动速度；

14、根据各对练场景的目标值和所述场景状态的价值，确定所述预设损失函数的损失值，所述目标值是根据所述奖励值和所述新场景状态确定的，所述价值是根据所述场景状态和修正量确定的；

15、若所述损失值大于所述预设阈值，则利用梯度算法更新所述强化学习模型后，进入步骤：针对各对练场景，利用所述强化学习模型，根据所述场景状态确定所述对练机器人按照所述期望轨迹挥动后的奖励值、新场景状态和所述修正量，直至所述损失值小于所述预设阈值；

16、当所述损失值小于所述预设阈值，获得所述已训练的强化学习模型。

17、在一个实施例中，所述场景状态包括环境状态、人的位置、对练机器人的位置和球的状态。

18、第二方面，本申请实施例提供了一种对练方法，包括：

19、获取当前场景的当前状态，所述当前场景包括目标；

20、根据所述当前状态，确定目标期望轨迹；

21、基于所述目标期望轨迹，控制对练机器人挥动，以击打所述目标。

22、在一个实施例中，所述根据所述当前状态，确定目标期望轨迹之后，还包括：

23、将所述当前状态输入至已训练的强化学习模型，获得所述已训练的强化学习模型输出的当前修正量，所述当前修正量包括当前扰动量、当前时间项中至少一种，所述已训练的强化学习模型为通过上述第一方面中所述的方法训练获得的；

24、根据所述当前扰动量，调整所述目标期望轨迹的末端轨迹点，获得优化轨迹，和/或根据所述当前时间项确定所述对练机器人的当前运动速度；

25、基于所述优化轨迹和/或所述当前运动速度，控制所述对练机器人挥动，以击打所述目标。

26、第三方面，本申请实施例提供了一种对练机器人训练装置，包括：

27、获取模块，用于获取第一训练数据，所述第一训练数据包括表征动作类型的各动作轨迹的轨迹点，所述动作轨迹的轨迹点是按照时间步长从所述动作轨迹提取得到的；

28、期望轨迹生成模块，用于利用所述第一训练数据中各轨迹点，训练高斯混合模型，直至所述高斯混合模型收敛，获得所述高斯混合模型的最优模型参数；

29、还用于利用高斯混合回归，根据所述最优模型参数，生成各时间步的最优轨迹点，以获得期望轨迹，所述期望轨迹用于指示对练机器人沿着所述期望轨迹挥动以击打球。

30、第四方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面或第二方面中任一项所述的方法。

31、第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面或第二方面中任一项所述的方法。

32、第六方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面或第二方面中任一项所述的方法。

33、本申请实施例与现有技术相比存在的有益效果是：

34、本申请实施例通过利用第一训练数据中各轨迹点，训练高斯混合模型，直至高斯混合模型收敛，获得高斯混合模型的最优模型参数；利用高斯混合回归，根据最优模型参数，生成各时间步的最优轨迹点，以获得期望轨迹，使得对练机器人基于期望轨迹学习该动作类型，使得对练机器人基于期望轨迹实现使用该动作类型击打球，实现与用户对练，更好协助用户训练以应对不同情况。

35、可以理解的是，上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本文档来自技高网...

【技术保护点】

1.一种对练机器人训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一训练数据，包括：

3.根据权利要求1所述的方法，其特征在于，获得期望轨迹之后，还包括：

4.根据权利要求2所述的方法，其特征在于，所述利用所述第二训练数据，训练强化学习模型，直至所述强化学习模型的预设损失函数的损失值小于预设阈值，获得已训练的强化学习模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述场景状态包括环境状态、人的位置、对练机器人的位置和球的状态。

6.一种对练方法，其特征在于，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述当前状态，确定目标期望轨迹之后，还包括：

8.一种对练机器人训练装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5或6至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存

...

【技术特征摘要】

1.一种对练机器人训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一训练数据，包括：

3.根据权利要求1所述的方法，其特征在于，获得期望轨迹之后，还包括：

5.根据权利要求4所述的方法，其特征在于，所述场景状态包括环境状态、人的位置、对练机器人的位置和球的状态。

6.一种对练方法，...

【专利技术属性】
技术研发人员：孙喜龙，于非，贺颖，陈贞儒，赵哲一，
申请(专利权)人：人工智能与数字经济广东省实验室深圳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人