当前位置: 首页 > 专利查询>兰州大学专利>正文

模型训练方法和装置、策略优化方法、设备及介质制造方法及图纸

技术编号:34694207 阅读:8 留言:0更新日期:2022-08-27 16:29
本发明专利技术公开了一种模型训练方法和装置、策略优化方法、设备及介质,所述方法包括:获取机械臂的训练数据集合;其中,所述训练数据集合包括:电压训练数据、位姿训练数据、训练策略,所述电压训练数据作为强化学习的环境,所述训练策略作为强化学习的动作;根据预设的动力学分析算法对所述训练数据集合进行模型构建,得到原始机械臂模型;将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理,得到初始机械臂模型;根据预设的奖励函数对所述初始机械臂模型进行更新处理,得到目标机械臂模型。本发明专利技术申请能够使得目标机械臂模型构建简易,提高机械臂的强化学习的效率。提高机械臂的强化学习的效率。提高机械臂的强化学习的效率。

【技术实现步骤摘要】
模型训练方法和装置、策略优化方法、设备及介质


[0001]本专利技术涉及模型训练的
,尤其是涉及一种模型训练方法和装置、策略优化方法、设备及介质。

技术介绍

[0002]机械臂是一种强非线性系统,其动力学模型往往具有非线性、耦合度高等特点,因此建立一个精确度高的机械臂动力学模型非常困难,而且机械臂系统的非线性特征导致了策略学习的子过程计算量大,学习机理表征不足,因此如何构建有效表征机械臂动力学特征的模型是目前亟待解决的问题。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种模型训练方法,能够使得目标机械臂模型构建简易,提高机械臂的强化学习的效率。
[0004]本专利技术还提出一种策略优化方法。
[0005]本专利技术还提出一种模型训练装置。
[0006]本专利技术还提出一种电子设备。
[0007]本专利技术还提出一种计算机可读存储介质。
[0008]第一方面,本专利技术的一个实施例提供了一种模型训练方法,所述方法包括:
[0009]获取机械臂的训练数据集合;其中,所述训练数据集合包括:电压训练数据、位姿训练数据、训练策略,所述电压训练数据作为强化学习的环境,所述训练策略作为强化学习的动作;
[0010]根据预设的动力学分析算法对所述训练数据集合进行模型构建,得到原始机械臂模型;
[0011]将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理,得到初始机械臂模型;
[0012]根据预设的奖励函数对所述初始机械臂模型进行更新处理,得到目标机械臂模型。
[0013]本专利技术实施例的基于强化学习的模型训练方法至少具有如下有益效果:通过获取电压训练数据、位姿训练数据和训练策略构建训练数据集合,然后根据预设的动力学分析算法对训练数据集合进行模型构建以得到原始机械臂模型,然后再根据预设的神经网络模型对原始机械臂模型转换为线性的初始机械臂模型,最后根据预设的奖励函数对初始机械臂模型进行更新参考轨迹和策略以得到目标机械臂模型,因此使得目标机械臂模型构建简易,提高机械臂的强化学习的效率。
[0014]根据本专利技术的另一些实施例的基于强化学习的模型训练方法,所述动力学分析算法为Koopman算法,所述根据预设的动力学分析算法对所述训练数据集合进行模型构建,得到原始机械臂模型,包括:
[0015]根据所述Koopman算法对所述电压训练数据、所述位姿训练数据和所述训练策略进行模型构建,得到所述原始机械臂模型;其中,所述原始机械臂模型具体如下:
[0016]Z
k+1
=AZ
k
+Bu
k
[0017]Z
k
=ψ(x
k
)
[0018][0019]式中,为电压训练数据,Z
k
=ψ(x
k
)表示升维函数,u
k
表示训练策略,为位姿训练数据。
[0020]根据本专利技术的另一些实施例的基于强化学习的模型训练方法,所述神经网络模型包括:编码器、解码器;
[0021]所述将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理,得到初始机械臂模型,包括:
[0022]通过所述编码器根据所述奖励函数对所述原始机械臂模型进行编码处理,得到解码数据;
[0023]通过所述解码器根据所述解码数据进行模型重构处理,得到所述初始机械臂模型;其中,所述初始机械臂模型为线性模型。
[0024]根据本专利技术的另一些实施例的基于强化学习的模型训练方法,所述编码器包括:第一全连接层、第一激活层、第二全连接层、第二激活层、第三全连接层和第三激活层;所述解码器包括:第四全连接层、第四激活层、第五全连接层、第五激活层、第六激活层和第六全连接层,所述第一激活层、所述第二激活层、所述第五激活层和所述第六激活层为PRelu层,所述第三激活层和所述第四激活层为Tanh层。
[0025]第二方面,本专利技术的一个实施例提供了基于强化学习的策略优化方法,所述方法包括:
[0026]获取电压预测数据,并将所述电压预测数据输入至所述目标机械臂模型,得到初始控制策略;其中,所述目标机械臂模型如第一方面所述的训练方法训练得到;
[0027]根据预设优化算法对所述初始控制策略进行优化处理,得到目标控制策略。
[0028]本专利技术实施例的基于强化学习的策略优化方法至少具有如下有益效果:通过目标机械臂模型得到初始控制策略,由于目标机械臂模型由上述训练得到,所以所得到的初始控制策略能够控制机械臂准确抓取目标位置的物品,但是为了进一步提高机械臂抓取的优化,根据优化算法对初始控制策略进行优化得到目标控制策略,既能够保证机械臂抓取又能够简化策略。
[0029]根据本专利技术的另一些实施例的基于强化学习的策略优化方法,所述目标机械臂模型包括:目标强化模型和目标动力学模型;所述获取电压预测数据,并将所述电压预测数据输入至所述目标机械臂模型,得到初始控制策略,包括:
[0030]获取电压预测数据,并将所述电压预测数据输入所述目标强化模型,得到预测位姿数据;
[0031]将所述预测位姿数据输入至所述目标动力学模型,得到目标控制策略。
[0032]根据本专利技术的另一些实施例的基于强化学习的策略优化方法,所述预设优化算法包括:预设代价算法和递归微分算法;所述根据预设优化算法对所述初始控制策略进行优
化处理,得到目标控制策略,包括:
[0033]根据所述预设代价算法对所述初始控制策略进行构建,得到代价方程;
[0034]根据所述递归微分算法对所述代价方程进行求解处理,得到所述目标控制策略。
[0035]第三方面,本专利技术的一个实施例提供了基于强化学习的模型训练装置,所述装置包括:
[0036]获取模块,用于获取机械臂的训练数据集合;其中,所述训练数据集合包括:电压训练数据、位姿训练数据、训练策略,所述电压训练数据作为强化学习的环境,所述训练策略作为强化学习的动作;
[0037]构建模块,用于根据预设的动力学分析算法对所述训练数据集合进行模型构建,得到原始机械臂模型;
[0038]变换模块,用于将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理,得到初始机械臂模型;
[0039]调整模块,用于根据预设的奖励函数对所述初始机械臂模型进行更新处理,得到目标机械臂模型。
[0040]本专利技术实施例的基于强化学习的模型训练装置至少具有如下有益效果:通过获取电压训练数据、位姿训练数据和训练策略构建训练数据集合,然后根据预设的动力学分析算法对训练数据集合进行模型构建以得到原始机械臂模型,再根据预设的神经网络模型对原始机械臂模型转换为线性的初始机械臂模型,最后根据预设的奖励函数对初始机械臂模型进行更新参考轨迹和策略以得到目标机械臂模型,因此使得目标机械臂模型构建简易,提高机械臂的强化学习的效率。
[0041]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取机械臂的训练数据集合;其中,所述训练数据集合包括:电压训练数据、位姿训练数据、训练策略,所述电压训练数据作为强化学习的环境,所述训练策略作为强化学习的动作;根据预设的动力学分析算法对所述训练数据集合进行模型构建,得到原始机械臂模型;将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理,得到初始机械臂模型;根据预设的奖励函数对所述初始机械臂模型进行更新处理,得到目标机械臂模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述动力学分析算法为Koopman算法,所述根据预设的动力学分析算法对所述训练数据集合进行模型构建,得到原始机械臂模型,包括:根据所述Koopman算法对所述电压训练数据、所述位姿训练数据和所述训练策略进行模型构建,得到所述原始机械臂模型;其中,所述原始机械臂模型具体如下:Z
k+1
=AZ
k
+Bu
k
Z
k
=ψ(x
k
)式中,为电压训练数据,Z
k
=ψ(x
k
)表示升维函数,u
k
表示训练策略,为位姿训练数据。3.根据权利要求1所述的模型训练方法,其特征在于,所述神经网络模型包括:编码器、解码器;所述将所述原始机械臂模型输入预设的神经网络模型进行线性变换处理,得到初始机械臂模型,包括:通过所述编码器根据所述奖励函数对所述原始机械臂模型进行编码处理,得到编码数据;通过所述解码器根据所述编码数据进行模型重构处理,得到所述初始机械臂模型;其中,所述初始机械臂模型为线性模型。4.根据权利要求3所述的模型训练方法,其特征在于,所述编码器包括:第一全连接层、第一激活层、第二全连接层、第二激活层、第三全连接层和第三激活层;所述解码器包括:第四全连接层、第四激活层、第五全连接层、第五激活层、第六激活层和第六全连接层,所述第一激活层、所述第二激活层、所述第五激活层和所述第六激活层为PRelu层,所述第三激活层和所述第四激活层为Tanh层。5.一种策略优化方法,其特征在于,所述方法包括:获取电...

【专利技术属性】
技术研发人员:阎石赵东东李艺昌周兴文李弘历
申请(专利权)人:兰州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1