当前位置: 首页 > 专利查询>同济大学专利>正文

一种第三方数控机床接入服务平台的方法及装置制造方法及图纸

技术编号:32173985 阅读:10 留言:0更新日期:2022-02-08 15:33
本发明专利技术公开了一种第三方数控机床接入服务平台的方法及装置,其方法包括获取历史数据,并基于历史数据确定算法的输入、输出以及奖励函数;将算法的输入、输出以及奖励函数带入信赖域策略优化算法中进行强化学习,更新信赖域策略优化算法的策略参数;采用自我行为克隆加速强化学习的收敛,获取更新后的策略参数,基于更新后的策略参数更新信赖域策略优化算法;获取数控机床运行的当前数据,并基于当前数据确定算法的当前输入,将算法的当前输入带入更新后的信赖域策略优化算法得到算法的当前输出;根据算法的当前输出获取当前时间段运行的数据,并上传至服务平台;本发明专利技术能够有效解决第三方数控机床与服务平台数据通讯成本高的技术问题。本高的技术问题。本高的技术问题。

【技术实现步骤摘要】
一种第三方数控机床接入服务平台的方法及装置


[0001]本专利技术涉及一种第三方数控机床接入服务平台的方法及装置,属于智能制造


技术介绍

[0002]智能生产线是集成应用了自动控制、计算机、大数据等技术的自动化生产线,是智能工厂的核心。建立面向中小企业的智能生产线关键共享服务平台,可以形成资源集中、利用率高、协同共享顺畅的关键技术共享体系。然而,不同领域的企业所需的智能生产线各不相同,从头建立一个跨行业的全能型智能生产线关键共享服务平台的成本是难以估量的。因此,如何将已有的智能生产线动态接入智能生产线关键共享服务平台,是面向中小企业智能生产线关键技术共享服务平台研发中的一个关键技术。共享服务平台需要和几万甚至几十万台第三方数控机床进行通讯,读取其运行状态,并发布运行指令。而且不同领域的企业具有各不相同的传感器类型、技术标准、过程数据。平台实时、无差别的读取生产线上所有传感器的数据,并根据这些数据进行远程控制,将会给通讯带来极大的压力,而且需要调用大量平台的计算资源。这不仅仅会影响用户的使用体验,增加服务平台日常运营维护成本,也不符合国家降低碳排放的要求。
[0003]为了解决上述问题,本申请提出了一种第三方数控机床接入服务平台的方法及装置。

技术实现思路

[0004]本专利技术的目的在于克服现有技术中的不足,提供一种第三方数控机床接入服务平台的方法及装置,解决第三方数控机床与服务平台数据通讯成本高的技术问题。
[0005]为达到上述目的,本专利技术是采用下述技术方案实现的:<br/>[0006]第一方面,本专利技术提供了一种第三方数控机床接入服务平台的方法,包括:
[0007]获取数控机床传感器运行的历史数据,并基于历史数据确定算法的输入、输出以及奖励函数;
[0008]将算法的输入、输出以及奖励函数带入信赖域策略优化算法中进行强化学习,更新信赖域策略优化算法的策略参数;
[0009]采用自我行为克隆加速信赖域策略优化算法的收敛,获取更新后的策略参数,基于更新后的策略参数更新信赖域策略优化算法;
[0010]获取数控机床运行的当前数据,并基于当前数据确定算法的当前输入,将算法的当前输入带入更新后的信赖域策略优化算法得到算法的当前输出;
[0011]根据算法的当前输出获取数控机床传感器当前时间段运行的数据,并上传至服务平台。
[0012]可选的,所述输入为上一时间段采集的传感器信息,所述输出为当前时间段采集传感器信息所对应的传感器编号以及采集频率。
[0013]可选的,所述奖励函数为:
[0014]R=α1EE+α2J
D
[0015]其中,R为奖励函数,EE为加工状态的能效比,J
D
为订单生产进度,α1,α2为超参数。
[0016]可选的,所述加工状态的能效比EE的获取包括:
[0017]获取t时间段,机床的加工、待机、停机和故障状态的时长总和,分别记为T1、T2、T3、T4;
[0018]计算各个状态的能效E
n

[0019][0020]计算加工状态的能效比EE:
[0021][0022]其中,t
B

t
A
表示t时间段的时长。
[0023]可选的,所述订单生产进度J
D
为:
[0024][0025]其中,D表示订单,P
n
为订单D的工序,记为D={P1、P2、

P
n

、P
N
},N为工序总数,为工序P
n
的生产进度。
[0026]可选的,所述更新信赖域策略优化算法的策略参数为:
[0027][0028][0029]其中,为更新后的策略参数,θ为当前的策略参数,α为学习率,为J(θ)对θ求偏导,E
S,A
为在输入为S输出A的情况下的期望,π为当前策略,S和A分别为用于强化学习的算法的输入和输出,Q
π
(S,A)为动作值函数,其表达式如下:
[0030]Q
π
(S,A)=E
S,A
[R1+γR2+γ2R3+...+γ
t
‑1R
t
|S,A][0031]其中,γ为折扣因子,R
t
为t时间段的奖励函数。
[0032]可选的,所述采用自我行为克隆加速信赖域策略优化算法的收敛包括:
[0033]确定损失函数:
[0034][0035]其中,n为用于强化学习的算法的输入和输出的数量,表示算法的实际输出,a
t
为用于强化学习的算法的输出,t为时间段;
[0036]基于损失函数在强化学习中加入监督学习从而加速信赖域策略优化算法的收敛。
[0037]第二方面,本专利技术提供了一种第三方数控机床接入服务平台的装置,包括处理器
及存储介质;
[0038]所述存储介质用于存储指令;
[0039]所述处理器用于根据所述指令进行操作以执行上述任一项所述方法的步骤。
[0040]与现有技术相比,本专利技术所达到的有益效果:
[0041]本专利技术提供的一种第三方数控机床接入服务平台的方法及装置,通过强化学习的方式更新信赖域策略优化算法得到算法;通过更新后的信赖域策略优化算法得到算法自适应的调整传感器数据采集频率以及信息采集量,来降低对通讯速度以及平台计算资源的要求,从而提高平台运行的效率。此外,本专利技术提出了自我行为克隆,利用探索过程中一些得到较高奖励的输入

输出对作为训练数据,来有监督的训练策略,加速策略的收敛,从而降低强化学习训练成本。
附图说明
[0042]图1是本专利技术实施例提供的一种第三方数控机床接入服务平台的方法流程图。
具体实施方式
[0043]下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。
[0044]实施例一:
[0045]如图1所示,本专利技术实施例提供了一种第三方数控机床接入服务平台的方法,包括以下步骤:
[0046]步骤1、获取数控机床传感器运行的历史数据,并基于历史数据确定算法的输入、输出以及奖励函数;
[0047]输入为上一时间段采集的传感器信息;
[0048]输出为当前时间段采集传感器信息所对应的传感器编号以及采集频率;
[0049]奖励函数为:
[0050]R=α1EE+α2J
D
[0051]其中,R为奖励函数,EE为加工状态的能效比,J
D
为订单生产进度,α1,α2为超参数。
[0052]具体的:
[0053]加工状态的能效比EE的获取包括:
[0054]获取t时间段,机床的加工、待机、停机和故障状态的时长总和,分别记为T1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种第三方数控机床接入服务平台的方法,其特征在于,包括:获取数控机床传感器运行的历史数据,并基于历史数据确定算法的输入、输出以及奖励函数;将算法的输入、输出以及奖励函数带入信赖域策略优化算法中进行强化学习,更新信赖域策略优化算法的策略参数;采用自我行为克隆加速信赖域策略优化算法的收敛,获取更新后的策略参数,基于更新后的策略参数更新信赖域策略优化算法;获取数控机床运行的当前数据,并基于当前数据确定算法的当前输入,将算法的当前输入带入更新后的信赖域策略优化算法得到算法的当前输出;根据算法的当前输出获取数控机床传感器当前时间段运行的数据,并上传至服务平台。2.根据权利要求1所述的一种第三方数控机床接入服务平台的方法,其特征在于,所述输入为上一时间段采集的传感器信息,所述输出为当前时间段采集传感器信息所对应的传感器编号以及采集频率。3.根据权利要求1所述的一种第三方数控机床接入服务平台的方法,其特征在于,所述奖励函数为:R=α1EE+α2J
D
其中,R为奖励函数,EE为加工状态的能效比,J
D
为订单生产进度,α1,α2为超参数。4.根据权利要求3所述的一种第三方数控机床接入服务平台的方法,其特征在于,所述加工状态的能效比EE的获取包括:获取t时间段,机床的加工、待机、停机和故障状态的时长总和,分别记为T1、T2、T3、T4;计算各个状态的能效E
n
:计算加工状态的能效比EE:其中,t
B

t
A
表示t时间段的时长。5.根据权利要求3所述的一种第三方数控机床接入服务平台的方法,其特征在于,所述订单生产进度J
D<...

【专利技术属性】
技术研发人员:徐炫辉尤鸣宇
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1