基于深度强化学习的双点渐进成形制造方法及装置制造方法及图纸

技术编号:34182952 阅读:12 留言:0更新日期:2022-07-17 13:32
本发明专利技术提供一种基于深度强化学习的双点渐进成形制造方法及装置,方法包括:获取待制造的三维模型并进行分层获取多个主工作路径以及候选的多个支撑路径,选择初始的当前主工作路径和当前支撑路径;根据当前主工作路径和选择的当前支撑路径在实际应用环境中分别循环控制主、从机器人的机械臂进行渐进成形,获取成形曲面;将成形曲面与目标曲面上的偏差值作为状态向量,应用预训练的深度强化学习模型进行强化学习,循环输出与下一主工作路径对应的支撑路径,并根据下一主工作路径和与下一主工作路径对应的支撑路径循环更新当前主工作路径和当前支撑路径,直至完成三维模型的渐进成形。本发明专利技术能够进行从机器人的支撑策略调整,灵活度高,成形精度高。成形精度高。成形精度高。

【技术实现步骤摘要】
基于深度强化学习的双点渐进成形制造方法及装置


[0001]本专利技术属于增材制造
,具体涉及到一种基于深度强化学习的双点渐进成形制造方法及装置。

技术介绍

[0002]渐进成形是一种柔性制造技术,不需要专用的模具便能加工出目标制件。渐进成形使用一个半球形工具附在机械臂或数控机床上。工具沿着预先编程的路径移动,在金属板材上产生局部塑性变形,从而使其达到所需的外壳形状。双点渐进成形利用两个半球形成形工具实现材料局部增量变形获得终成形零件。双点渐进成的原理是在板料一侧通过主工具头(成形压头)进行加工的同时,在另一侧有副工具头(支撑压头)支撑板料,且副工具头的运行轨迹是从属于主工具头。这种双点渐进成形方法可以进一步提高板料的成形性,有效地改善成形件的尺寸精度。但是现有的双点渐进成形方法存在许多缺点,在渐进成形过程中副工具头的支撑策略是固定不变的,成型结果的几何精度低与成形范围小,限制了其广泛的工业应用。目前渐进成形精度问题的改进方法以测量材料的反弹量进行补偿为主,在成形控制方面很难优化。

技术实现思路

[0003]本专利技术提供一种基于深度强化学习的双点渐进成形制造方法及装置,以解决现有的从机器人的支撑策略固定,成形精度低的问题。
[0004]基于上述目的,本专利技术实施例提供了一种基于深度强化学习的双点渐进成形制造方法,包括:获取待制造的三维模型并对所述三维模型进行分层获取多个主工作路径以及与每个所述主工作路径对应的候选的多个支撑路径,选择一主工作路径以及与所述选择的主工作路径对应的一支撑路径作为初始的当前主工作路径和当前支撑路径;根据当前主工作路径和选择的当前支撑路径在实际应用环境中分别循环控制主、从机器人的机械臂进行渐进成形,获取与所述当前主工作路径对应的成形曲面;将所述成形曲面与目标曲面的偏差值作为状态向量,应用预训练的深度强化学习模型进行支撑策略的强化学习,循环输出与下一主工作路径对应的支撑路径,并根据所述下一主工作路径和与所述下一主工作路径对应的所述支撑路径循环更新所述当前主工作路径和所述当前支撑路径,直至完成所述三维模型的渐进成形。
[0005]可选的,所述获取待制造的三维模型并对所述三维模型进行分层获取多个主工作路径以及与每个所述主工作路径对应的候选的多个支撑路径,包括:获取待制造的三维模型,应用沿曲面偏移函数对所述三维模型以预设层厚沿成形方向进行分层,获取第一预设数量的曲线路径;针对每个所述曲线路径,以预设点间距划分第二预设数量的离散点,并根据所述离散点生成与所述曲线路径对应的主工作路径;针对每个所述主工作路径,分别根据多个支撑策略获取与所述主工作路径对应的候选的多个所述支撑路径,所述支撑策略为全局支撑策略、局部外围支撑策略、局部正面支撑策略以及跟随支撑策略的其中之一。
[0006]可选的,在所述根据当前主工作路径和选择的所述支撑路径在真实环境中控制机械臂进行渐进成形,获取与所述当前主工作路径对应的成形曲面之前,包括:在Grasshopper中构建与待制造的所述三维模型的实际应用环境相符的数字仿真环境;在所述数字仿真环境对所述三维模型进行仿真,并结合仿真结果对所述深度强化学习模型进行训练,获取预训练的所述深度强化学习模型。
[0007]可选的,所述在所述数字仿真环境对所述三维模型进行仿真,并结合仿真结果对所述深度强化学习模型进行训练,获取预训练的所述深度强化学习模型,包括:根据成形方向选择初始的主工作路径作为当前仿真主工作路径,并根据所述当前仿真主工作路径从候选的多个支撑路径中随机选择其中一个作为初始的当前仿真支撑路径;根据所述当前仿真主工作路径和所述当前仿真支撑路径应用所述数字仿真环境进行仿真成形,获取与所述当前仿真主工作路径对应的仿真成形曲面和仿真成形曲面回弹值;将所述仿真成形曲面与目标曲面的偏差值作为状态向量对输入所述深度强化学习模型进行支撑策略的强化学习,并结合所述仿真成形曲面回弹值,更新与下一仿真主工作路径对应的仿真支撑路径和当前回报值;根据所述下一仿真主工作路径和对应的仿真支撑路径分别对所述当前仿真主工作路径和所述当前仿真支撑路径进行循环更新,根据更新后的所述当前仿真主工作路径和所述当前仿真支撑路径循环控制机械臂进行渐进成形,循环更新所述仿真成形曲面;根据更新的所述仿真成形曲面与所述目标曲面循环更新所述状态向量,根据更新的所述状态向量和所述回报值调整所述深度强化学习模型的模型参数,直至满足所述深度强化学习模型的收敛条件。
[0008]可选的,所述根据所述当前仿真主工作路径和所述当前仿真支撑路径应用所述数字仿真环境进行仿真成形,获取与所述当前仿真主工作路径对应的仿真成形曲面和仿真成形曲面回弹值,包括:按照机器人语法规则将所述当前仿真主工作路径和所述当前仿真支撑路径的离散点的坐标和方向转化为机器人运动指令;使用仿真软件构建板材形变的仿真模型,根据所述机器人运动指令进行仿真成形,返回与所述当前仿真主工作路径对应的仿真成形曲面和仿真成形曲面回弹值。
[0009]可选的,所述将所述仿真成形曲面与目标曲面的偏差值作为状态向量对输入所述深度强化学习模型进行支撑策略的强化学习,并结合所述仿真成形曲面回弹值,更新与下一仿真主工作路径对应的仿真支撑路径和当前回报值,包括:获取与所述目标曲面上的各第一参考点分别对应的所述仿真成形曲面上的各第二参考点,并计算各所述第二参考点与对应的各所述第一参考点的误差值,构成所述状态向量;将所述状态向量输入所述深度强化学习模型进行支撑策略的强化学习,并输出与下一仿真主工作路径对应的仿真支撑路径;根据所述仿真成形曲面以及所述仿真成形曲面回弹值更新所述当前回报值。
[0010]可选地,所述根据所述仿真成形曲面以及所述仿真成形曲面回弹值获取所述当前回报值,包括:所述当前回报值的初始值为0,如果所述仿真成形曲面回弹值大于等于参考值,则控制所述当前回报值减小第一预设值;如果所述仿真成形曲面回弹值小于参考值,则控制所述当前回报值增加第一预设值;如果所述仿真成形曲面成形失败,则控制所述当前回报值为第二预设值。
[0011]基于同一专利技术构思,本专利技术实施例还提出了一种基于深度强化学习的双点渐进成形制造装置,包括:路径获取单元,用于获取待制造的三维模型并对所述三维模型进行分层
获取多个主工作路径以及与每个所述主工作路径对应的候选的多个支撑路径,根据成形方向选择初始的主工作路径以及与所述初始的主工作路径对应的一支撑路径作为初始的当前主工作路径和当前支撑路径;渐进成形单元,用于根据当前主工作路径和当前支撑路径在实际应用环境中分别循环控制主、从机器人的机械臂进行渐进成形,获取与所述当前主工作路径对应的成形曲面;强化学习单元,用于将所述成形曲面与目标曲面的偏差值作为状态向量,应用预训练的深度强化学习模型进行支撑策略的强化学习,循环输出与下一主工作路径对应的支撑路径,并根据所述下一主工作路径和与所述下一主工作路径对应的所述支撑路径循环更新所述当前主工作路径和所述当前支撑路径,直至完成所述三维模型的渐进成形。
[0012]基于同一专利技术构思,本专利技术实施例还提出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的双点渐进成形制造方法,其特征是,所述方法包括:获取待制造的三维模型并对所述三维模型进行分层获取多个主工作路径以及与每个所述主工作路径对应的候选的多个支撑路径,根据成形方向选择初始的主工作路径以及与所述初始的主工作路径对应的一支撑路径作为初始的当前主工作路径和当前支撑路径;根据当前主工作路径和选择的当前支撑路径在实际应用环境中分别循环控制主、从机器人的机械臂进行渐进成形,获取与所述当前主工作路径对应的成形曲面;将所述成形曲面与目标曲面的偏差值作为状态向量,应用预训练的深度强化学习模型进行支撑策略的强化学习,循环输出与下一主工作路径对应的支撑路径,并根据所述下一主工作路径和与所述下一主工作路径对应的所述支撑路径循环更新所述当前主工作路径和所述当前支撑路径,直至完成所述三维模型的渐进成形。2.如权利要求1所述的方法,其特征是,所述获取待制造的三维模型并对所述三维模型进行分层获取多个主工作路径以及与每个所述主工作路径对应的候选的多个支撑路径,包括:获取待制造的三维模型,应用沿曲面偏移函数对所述三维模型以预设层厚沿成形方向进行分层,获取第一预设数量的曲线路径;针对每个所述曲线路径,以预设点间距划分第二预设数量的离散点,并根据所述离散点生成与所述曲线路径对应的主工作路径;针对每个所述主工作路径,分别根据多个支撑策略获取与所述主工作路径对应的候选的多个所述支撑路径,所述支撑策略为全局支撑策略、局部外围支撑策略、局部正面支撑策略以及跟随支撑策略的其中之一。3.如权利要求1所述的方法,其特征是,在所述根据当前主工作路径和选择的所述支撑路径在真实环境中控制机械臂进行渐进成形,获取与所述当前主工作路径对应的成形曲面之前,包括:在Grasshopper中构建与待制造的所述三维模型的实际应用环境相符的数字仿真环境;在所述数字仿真环境对所述三维模型进行仿真,结合仿真结果对所述深度强化学习模型进行训练,获取预训练的所述深度强化学习模型。4.如权利要求3所述的方法,其特征是,所述在所述数字仿真环境对所述三维模型进行仿真,并结合仿真结果对所述深度强化学习模型进行训练,获取预训练的所述深度强化学习模型,包括:根据成形方向选择初始的主工作路径作为当前仿真主工作路径,并根据所述当前仿真主工作路径从候选的多个支撑路径中随机选择其中一个作为初始的当前仿真支撑路径;根据所述当前仿真主工作路径和所述当前仿真支撑路径应用所述数字仿真环境进行仿真成形,获取与所述当前仿真主工作路径对应的仿真成形曲面和仿真成形曲面回弹值;将所述仿真成形曲面与目标曲面的偏差值作为状态向量对输入所述深度强化学习模型进行支撑策略的强化学习,并结合所述仿真成形曲面回弹值,更新与下一仿真主工作路径对应的仿真支撑路径和当前回报值;根据所述下一仿真主工作路径和对应的仿真支撑路径分别对所述当前仿真主工作路径和所述当前仿真支撑路径进行循环更新,根据更新后的所述当前仿真主工作路径和所述
当前仿真支撑路径循环控制机械臂进行渐进成形,循环更新所述仿真成形曲面;根据更新的所述仿真成形曲面与所述目标曲面循环更新所述状态向量,根...

【专利技术属性】
技术研发人员:崔强何梦兮和四忠杨道乾李江山喻川西达思
申请(专利权)人:贵州翰凯斯智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1