模型训练方法和装置、策略优化方法、设备及介质制造方法及图纸

技术编号：34694207 阅读：8 留言：0更新日期：2022-08-27 16:29

本发明专利技术公开了一种模型训练方法和装置、策略优化方法、设备及介质，所述方法包括：获取机械臂的训练数据集合；其中，所述训练数据集合包括：电压训练数据、位姿训练数据、训练策略，所述电压训练数据作为强化学习的环境，所述训练策略作为强化学习的动作；根据预设的动力学分析算法对所述训练数据集合进行模型构建，得到原始机械臂模型；将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理，得到初始机械臂模型；根据预设的奖励函数对所述初始机械臂模型进行更新处理，得到目标机械臂模型。本发明专利技术申请能够使得目标机械臂模型构建简易，提高机械臂的强化学习的效率。提高机械臂的强化学习的效率。提高机械臂的强化学习的效率。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法和装置、策略优化方法、设备及介质

[0001]本专利技术涉及模型训练的
，尤其是涉及一种模型训练方法和装置、策略优化方法、设备及介质。

技术介绍

[0002]机械臂是一种强非线性系统，其动力学模型往往具有非线性、耦合度高等特点，因此建立一个精确度高的机械臂动力学模型非常困难，而且机械臂系统的非线性特征导致了策略学习的子过程计算量大，学习机理表征不足，因此如何构建有效表征机械臂动力学特征的模型是目前亟待解决的问题。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此，本专利技术提出一种模型训练方法，能够使得目标机械臂模型构建简易，提高机械臂的强化学习的效率。
[0004]本专利技术还提出一种策略优化方法。
[0005]本专利技术还提出一种模型训练装置。
[0006]本专利技术还提出一种电子设备。
[0007]本专利技术还提出一种计算机可读存储介质。
[0008]第一方面，本专利技术的一个实施例提供了一种模型训练方法，所述方法包括：
[0009]获取机械臂的训练数据集合；其中，所述训练数据集合包括：电压训练数据、位姿训练数据、训练策略，所述电压训练数据作为强化学习的环境，所述训练策略作为强化学习的动作；
[0010]根据预设的动力学分析算法对所述训练数据集合进行模型构建，得到原始机械臂模型；
[0011]将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理，得到初始机械臂模型；
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：获取机械臂的训练数据集合；其中，所述训练数据集合包括：电压训练数据、位姿训练数据、训练策略，所述电压训练数据作为强化学习的环境，所述训练策略作为强化学习的动作；根据预设的动力学分析算法对所述训练数据集合进行模型构建，得到原始机械臂模型；将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理，得到初始机械臂模型；根据预设的奖励函数对所述初始机械臂模型进行更新处理，得到目标机械臂模型。2.根据权利要求1所述的模型训练方法，其特征在于，所述动力学分析算法为Koopman算法，所述根据预设的动力学分析算法对所述训练数据集合进行模型构建，得到原始机械臂模型，包括：根据所述Koopman算法对所述电压训练数据、所述位姿训练数据和所述训练策略进行模型构建，得到所述原始机械臂模型；其中，所述原始机械臂模型具体如下：Z
k+1
＝AZ
k
+Bu
k
Z
k
＝ψ(x
k
)式中，为电压训练数据，Z
k
＝ψ(x
k
)表示升维函数，u
k
表示训练策略，为位姿训练数据。3.根据权利要求1所述的模型训练方法，其特征在于，所述神经网络模型包括：编码器、解码器；所述将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理，得到初始机械臂模型，包括：通过所述编码器根据所述奖励函数对所述原始机械臂模型进行编码处理，得到编码数据；通过所述解码器根据所述编码数据进行模型重构处理，得到所述初始机械臂模型；其中，所述初始机械臂模型为线性模型。4.根据权利要求3所述的模型训练方法，其特征在于，所述编码器包括：第一全连接层、第一激活层、第二全连接层、第二激活层、第三全连接层和第三激活层；所述解码器包括：第四全连接层、第四激活层、第五全连接层、第五激活层、第六激活层和第六全连接层，所述第一激活层、所述第二激活层、所述第五激活层和所述第六激活层为PRelu层，所述第三激活层和所述第四激活层为Tanh层。5.一种策略优化方法，其特征在于，所述方法包括：获取电...

【专利技术属性】
技术研发人员：阎石，赵东东，李艺昌，周兴文，李弘历，
申请(专利权)人：兰州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人