一种基于强化学习的刀具路径生成与优化方法技术

技术编号:20621045 阅读:56 留言:0更新日期:2019-03-20 13:45
本发明专利技术属于人工智能和计算机辅助相关技术领域,其公开了一种基于强化学习的刀具路径生成与优化方法,该方法包括以下步骤:(1)将加工信息输入到环境仿真模型;(2)环境仿真模型依据来自深度神经网络模型的动作值产生状态值,并将状态值输出给深度神经网络模型,深度神经网络模型根据状态值作产生新的动作值,并将新的动作值传输给环境仿真模型,如此两者不断交互,使得刀具从加工起始点到达加工终点,进而生成刀具路径;(3)重复步骤(2)以获得多条刀具路径,将多条刀具路径输入到路径评判模块,路径评判模块对每刀具路径做出判断并输出评判分数,将评判分数最高的刀具路径作为最终的刀具路径。本发明专利技术提高精度及效率,适用性较强。

A Tool Path Generation and Optimization Method Based on Reinforcement Learning

The invention belongs to the field of artificial intelligence and computer-aided related technology, and discloses a method of tool path generation and Optimization Based on reinforcement learning. The method includes the following steps: (1) input processing information into environmental simulation model; (2) environmental simulation model generates state value according to action value from deep neural network model, and outputs state value to deep neural network. The deep neural network model generates new action values according to the state values, and transmits the new action values to the environmental simulation model, so that the two interact continuously, making the tool from the starting point to the end point of the processing, and then generates the tool path; (3) Repeat steps (2) to obtain multiple tool paths, and input multiple tool paths into the path evaluation module, and the path evaluation module. Each tool path is judged and the score is output. The tool path with the highest score is regarded as the final tool path. The invention improves accuracy and efficiency, and has strong applicability.

【技术实现步骤摘要】
一种基于强化学习的刀具路径生成与优化方法
本专利技术属于人工智能和计算机辅助相关
,更具体地,涉及一种基于强化学习的刀具路径生成与优化方法。
技术介绍
为了提高数控机床的加工技术的应用水平,降低数控加工的加工成本以及确保零件与产品的加工质量,无论是国内还是国外对数控加工中的刀具轨迹优化技术做了大量的研究工作。在数控加工过程中,当刀具轨迹骤然变化时,有可能会导致刀具瞬间铣削力急剧增大,机床和刀具的振动幅度增加,这样不仅会降低零件或产品的加工精度,还会降低机床和刀具的使用寿命。因此,刀具路径的研究具有十分重要的理论意义和经济效益。目前,本领域相关技术人员已经做了一些研究,如采用了机器学习技术,然而当前的加工轨迹生成方法大都是基于几何形状而没有考虑实际加工过程中的动力学问题,导致刀具路径的生成速度较差、加速特性不佳、与实际机械加工过程的契合度较低、需要人为参与、灵活性较差等技术问题。相应地,本领域存在发展一种速度较好的基于强化学习的刀具路径生成与优化方法的技术需求。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于强化学习的刀具路径生成与优化方法,其基于现有刀具路径的生成特点,研究及设计了一种速度较好的基于强化学习的刀具路径生成与优化方法。所述方法结合了强化学习强大的决策能力及深度神经网络强大的感知能力,且考虑了实际加工过程中的运动学及动力学特性,能够在公差带之中快速、准确地规划一条更加符合实际加工过程的刀具路径。为实现上述目的,本专利技术提供了一种基于强化学习的刀具路径生成及优化方法,该方法包括以下步骤:(1)将加工信息输入到环境仿真模型,所述环境仿真模型依据所述加工信息产生仿真刀具加工环境及加工的公差带,并将所述公差带输入到所述仿真刀具加工环境中;(2)所述环境仿真模型依据来自训练好的深度神经网络模型的动作值产生状态值,并将所述状态值输出给所述深度神经网络模型,所述深度神经网络模型根据接受到的所述状态值作前向推导以产生新的动作值,并将新的动作值传输给所述环境仿真模型,如此所述环境仿真模型与所述深度神经网络模型不断交互,使得刀具不断做出动作以从加工起始点沿着所述公差带延伸方向到达加工终点,进而生成一条刀具路径;(3)重复步骤(2)以获得多条刀具路径,将多条所述刀具路径输入到路径评判模块,所述路径评判模块对接收到的每一条刀具路径做出判断并输出一个评判分数,将多条所述刀具路径中评判分数最高的刀具路径作为最终的刀具路径。进一步地,所述加工信息包括工件轮廓信息、公差带带宽及刀具半径。进一步地,步骤(1)之前还包括构建所述环境仿真模型的步骤,所述环境仿真模型的构建包括以下步骤:首先,对实际加工过程进行建模以得到刀具加工模型,且对加工过程中机床给予刀具的动力及摩擦力进行分析,以抽象出加工过程中的刀具动力学过程;接着,对所述刀具加工模型中的摩擦系数进行辨识;最后,采用物理引擎构建仿真环境,进而得到所述环境仿真模型。进一步地,所述环境仿真模型根据接受到的该动作值仿真计算出下一刻刀具所处的状态,并将该状态以状态值的形式传输给所述深度神经网络模型。进一步地,所述环境仿真模型还根据接受到的动作值生成奖赏值并将生成的奖赏值传输给所述深度神经网络模型,所述奖赏值用于所述深度神经网络模型的训练。进一步地,所述深度神经网络模型根据接受到的所述状态值再做前向推导以生成一个动作空间的分布,并选取最优动作值来决定下一步的动作值。进一步地,步骤(2)之前还包括构建及训练所述深度神经网络模型的步骤。进一步地,构建所述深度神经网络模型时,采用开源机器学习框架搭建整个深度神经网络模型的结构,并利用近端策略优化算法建立训练和预测的数据流通道。进一步地,所述环境仿真模型与所述深度神经网络模型交互多轮后,所述深度神经网络模型将之前存储的奖赏值及状态值传输给值函数估计器,所述值函数估计器产生批量的优势值并将所述优势值传输给所述深度神经网络模型,进而结合所述状态值、所述奖赏值及所述优势值来训练所述神经网络模型,反复进行直至所述深度神经网络模型收敛到预定状态。进一步地,所述深度神经网络模型训练时采用的公差带不是固定的加工公差带,而是所述环境仿真模型随机生成的公差带,以提高所述深度神经网络模型的泛化能力。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,本专利技术提供的基于强化学习的刀具路径生成与优化方法主要具有以下有益效果:1.该方法结合了强化学习的决策能力及深度神经网络强大的感知能力,如此实现了快速、准确地规划符合实际加工过程中运动学和动力学特性的刀具路径,适用性较强。2.采用物理引擎构建仿真环境,进而得到所述环境仿真模型,不仅仅模拟了加工过程中刀具与工件的几何关系,而且模拟了刀具运动过程中的动力学特性,这样保证生成的刀具路径既避免了干涉,使得路径在内外公差带之间,还符合真实的加工动力学特性,保证了加工的精度和效率。3.所述方法通过搭建仿真的加工环境模拟加工过程中刀具的运动学和动力学过程,生成更加符合实际加工过程的刀具路径,从而在实际加工过程中能够获得具有更好速度及加速度特性的走刀轨迹。4.所述方法能够应对不同刀具轨迹和不同的公差带,无需人工介入,自动生成与优化刀具的走刀轨迹,灵活性较好,适用性较强,且减小了标注数据的需求量。附图说明图1是本专利技术提供的基于强化学习的刀具路径生成与优化方法的流程示意图。图2是图1中的基于强化学习的刀具路径生成与优化方法涉及的深度神经网络模型的示意图。图3是图2中的深度神经网络模型、环境仿真模型与值函数估计器之间的交互示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。请参阅图1、图2及图3,本专利技术提供的基于强化学习的刀具路径生成与优化方法主要包括以下步骤:步骤一,将加工信息输入到环境仿真模型,所述环境仿真模型依据所述加工信息产生仿真刀具加工环境及加工的公差带,并将所述公差带输入到所述仿真刀具加工环境中。具体地,将加工信息输入到所述环境仿真模型,所述环境仿真模型根据所述加工信息中的加工工程中零件的形状和需求的精度要求生成一个加工的公差带及仿真刀具加工环境,并将所述公差带输入到所述仿真刀具加工环境中,让刀具在所述公差带之内运动。所述加工信息包括加工过程中的工件轮廓信息、公差带带宽、刀具半径、机床特性等。所述环境仿真模型根据所述加工信息进行一系列转换以得到可训练的公差带并且设置机床加工过程中刀具走刀的加速度等加工量来创建对应的模拟刀具走刀的仿真刀具加工环境。步骤一之前还包括建立所述环境仿真模型的步骤,具体为,首先,对实际加工工程进行建模,具体针对机床加工过程中刀具的行进过程进行建模,对刀具加工过程中机床给予的动力及摩擦力等进行分析,以抽象出加工过程中的刀具动力学过程。随后进行参数的辨识,刀具加工模型中的摩擦系数等参数进行辨识,以更加准确地描述刀具加工过程。接着,采用物理引擎及计算机图形学库构建一个仿真的环境,进而得到所述环境仿真模型。所述环境仿真模型能够将整个加工过程可视化,本文档来自技高网...

【技术保护点】
1.一种基于强化学习的刀具路径生成与优化方法,其特征在于,该方法包括以下步骤:(1)将加工信息输入到环境仿真模型,所述环境仿真模型依据所述加工信息产生仿真刀具加工环境及加工的公差带,并将所述公差带输入到所述仿真刀具加工环境中;(2)所述环境仿真模型依据来自训练好的深度神经网络模型的动作值产生状态值,并将所述状态值输出给所述深度神经网络模型,所述深度神经网络模型根据接受到的所述状态值作前向推导以产生新的动作值,并将新的动作值传输给所述环境仿真模型,如此所述环境仿真模型与所述深度神经网络模型不断交互,使得刀具不断做出动作以从加工起始点沿着所述公差带延伸方向到达加工终点,进而生成一条刀具路径;(3)重复步骤(2)以获得多条刀具路径,将多条所述刀具路径输入到路径评判模块,所述路径评判模块对接收到的每一条刀具路径做出判断并输出一个评判分数,将多条所述刀具路径中评判分数最高的刀具路径作为最终的刀具路径。

【技术特征摘要】
1.一种基于强化学习的刀具路径生成与优化方法,其特征在于,该方法包括以下步骤:(1)将加工信息输入到环境仿真模型,所述环境仿真模型依据所述加工信息产生仿真刀具加工环境及加工的公差带,并将所述公差带输入到所述仿真刀具加工环境中;(2)所述环境仿真模型依据来自训练好的深度神经网络模型的动作值产生状态值,并将所述状态值输出给所述深度神经网络模型,所述深度神经网络模型根据接受到的所述状态值作前向推导以产生新的动作值,并将新的动作值传输给所述环境仿真模型,如此所述环境仿真模型与所述深度神经网络模型不断交互,使得刀具不断做出动作以从加工起始点沿着所述公差带延伸方向到达加工终点,进而生成一条刀具路径;(3)重复步骤(2)以获得多条刀具路径,将多条所述刀具路径输入到路径评判模块,所述路径评判模块对接收到的每一条刀具路径做出判断并输出一个评判分数,将多条所述刀具路径中评判分数最高的刀具路径作为最终的刀具路径。2.如权利要求1所述的基于强化学习的刀具路径生成与优化方法,其特征在于:所述加工信息包括工件轮廓信息、公差带带宽及刀具半径。3.如权利要求1所述的基于强化学习的刀具路径生成与优化方法,其特征在于:步骤(1)之前还包括构建所述环境仿真模型的步骤,所述环境仿真模型的构建包括以下步骤:首先,对实际加工过程进行建模以得到刀具加工模型,且对加工过程中机床给予刀具的动力及摩擦力进行分析,以抽象出加工过程中的刀具动力学过程;接着,对所述刀具加工模型中的摩擦系数进行辨识;最后,采用物理引擎构建仿真环境,进而得到所述环境仿真模型。4.如权利要求1所述的基于强化学习的刀具路径生成与优化方法,其特征在于:所述环境仿真模型根据接受...

【专利技术属性】
技术研发人员:杨建中向单奇武俊雄高嵩朱万强宋仕杰傅有
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1