一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法技术

技术编号:36573674 阅读:17 留言:0更新日期:2023-02-04 17:31
本发明专利技术公开了一种基于Actor

【技术实现步骤摘要】
一种基于Actor

Critic强化学习模型的焊接异常实时诊断方法


[0001]本专利技术属于焊接异常诊断
,特别涉及一种基于Actor

Critic强化学习模型的焊接异常实时诊断方法。

技术介绍

[0002]焊接作为一种重要的制造技术,被广泛应用于工业生产中。焊接过程属于典型的不确定性、非线性系统过程,在焊接过程会发生复杂的物理化学反应同时焊接工艺的复杂性导致不可避免的会出现焊接质量缺陷;现阶段主要的缺陷检测手段主要为人眼观测或使用一些无损探伤的设备进行检测;随着焊接异常诊断技术的不断发展,目前已经涌现出一批通过采集电流、电压等时序数据,并对此进行数据分析,最终实现焊接质量实时检测的效果。但现有技术均是将焊接异常诊断作为传统的分类问题,核心思想在于通过机器学习等方法进行精准分类,从强化学习角度对焊接异常情况进行实时检测则尚无相关研究。

技术实现思路

[0003]专利技术目的:针对上述
技术介绍
中提出的研究方向,本专利技术提供了一种基于Actor

Critic强化学习模型的焊接异常实时诊断方法,将传统焊接异常检测问题由分类问题转化为焊接异常标签识别问题,可以实现同步准确识别多种焊接异常状态的效果。
[0004]技术方案:一种基于Actor

Critic强化学习模型的焊接异常实时诊断方法,包括以下步骤:步骤S1、采集焊接过程中的多维传感数据,并进行预处理;对采集到的传感数据按照实际焊接情况进行标注,并构造特征,最终划分训练集和测试集,构建入模数据集;步骤S2、搭建基于DQN网络结构的Actor

Critic强化学习模型;步骤S3、基于训练集数据,采用TD算法对步骤S2所述Actor

Critic强化学习模型进行训练,输入特征数据,识别特征数据所属焊接标注情况;步骤S4、基于训练好的Actor

Critic强化学习模型,基于测试集特征数据进行测试;通过输入的时序数据特征,实时识别所属焊接情况;最终部署测试完毕的Actor

Critic强化学习模型,实时接收传感器采集的数据,并识别当前焊接状态。
[0005]进一步地,所述步骤S1中对多维传感数据进行预处理步骤包括:所述步骤S1中对多维传感数据进行预处理步骤包括:步骤S1.1、通过部署在焊机终端的各类传感器实时采集焊接过程中的高频时序数据,本实施例中采集的数据包括电流、电压、送丝速度和保护气流速;步骤S1.2、对采集到的时序数据根据实际焊接情况进行标注,将正常焊接标注为0,对不同焊接异常问题分别标注不同代号;步骤S1.3、针对采集的时序数据进行特征构造;构造特征包括时域特征、频域特征
和时频域特征;步骤S1.4、基于步骤S1.3中提取的特征及对应的标签构建入模数据集,包括训练集和测试集。
[0006]进一步地,所述步骤S2中Actor

Critic强化学习模型搭建步骤包括:步骤S2.1、创建强化学习环境;所述强化学习环境包括状态和执行的动作action;其中状态代表所有训练集样本数据,动作则代表对当前输入的样本数据进行标签预测;强化学习环境基于智能体产生的动作action,利用step函数产生下一时刻状态和下一时刻回报,然后再反馈至智能体,进入下一轮循环;其中,强化学习环境对于智能体执行动作获得的回报reward规则如下:当标签预测结果与真实标签相符时,reward=1分,不符则reward=

1分;对于初始化及重置动作,则reward=0分;步骤S2.2、基于DQN网络设置智能体结构;DQN网络结构包括1层输入层、不少于2层线性层和1层线性输出层,激活函数采用Relu;智能体的输入包括当前初始化状态s
t,
以及初始化回报r
t
,强化学习环境通过动作action产生下一时刻状态s
t+1
和回报r
t+1
,当前初始化状态代表环境自身随机产生的训练集样本数据,初始化回报代表环境初始化的回报,即为0,回报r
t+1
代表智能体进行预测后获取的回报分数,下一刻状态代表下一刻输入的训练集样本数据;在当前状态下,选择不同动作,智能体会返回不同Q值,选择最大的Q值对应的动作,即为智能体采取的动作,将该动作下预测的标签与真实标签对比,计算其回报分数;采用Actor

Critic架构强化学习模型作为智能体结构,其中Actor模型和Critic模型采用相同结构的DQN网络模型,在Actor输出层添加处理逻辑,使Actor模型输出为Q值最大时对应的动作。
[0007]进一步地,所述步骤S3中采用TD算法对Actor

Critic强化学习模型进行训练,具体步骤包括:所述步骤S3中采用TD算法对Actor

Critic强化学习模型进行训练,具体步骤包括:步骤S3.1、获取当前状态序列的第一个状态S,及对应的特征向量
ϕ
(S)及初始化回报r;步骤S3.2、将
ϕ
(S)和r输入至Actor网络中,输出动作为A,基于该动作,获取下一时刻状态S

和回报R;步骤S3.3、在Critic模型中将下一时刻状态S

对应的特征向量
ϕ
(S

),分别得到对应的Q值输出V(S),V(S

);步骤S3.4、计算TD误差δ如下:δ=R+γV(S

)

V(S)其中γ为折扣因子;步骤S3.5、使用均方差损失函数∑(R+γV(S

)

V(S))2对Critic网络参数进行梯度更新;步骤S3.6、将传统经验回放池存储的数据加入当前状态s
t
下对应的
真实数据标签,扩充为;设置经验回放池的大小Pool_Size以及每次从经验回放池采样的数据个数M、采样次数N,经过Actor网络不断向经验回放池中存入数据组,当回放池大小满足要求后,对回放池内数据进行采样,将每次采样的数据个数M传入Critic模型以步骤S3.2

步骤S3.5的过程进行参数更新,达到采样次数N时停止采样,清空经验回放池,并且前面使用过的数据后续将不再重复使用;步骤S3.7、继续利用Actor模型对训练集剩余特征数据进行计算,得到当前状态对应的动作,并重复步骤S3.6,直至训练完整个训练集;步骤S3.8,设定时间步,每间隔若干步后Critic模型将自身的参数赋值给Actor模型,用于更新Actor模型。
[0008]进一步地,步骤S3.6中采用分层采样方法对回放池内数据进行采样;按照训练集中不同标注样本的比例进行随机采样。
[0009]进一步地,步骤S4中基于训练集数据训练若干轮后,利用训练好的强化学习模型对测试集样本数据进行预测。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Actor

Critic强化学习模型的焊接异常实时诊断方法,其特征在于,包括以下步骤:步骤S1、采集焊接过程中的多维传感数据,并进行预处理;对采集到的传感数据按照实际焊接情况进行标注,并构造特征,最终划分训练集和测试集,构建入模数据集;步骤S2、搭建基于DQN网络结构的Actor

Critic强化学习模型;步骤S3、基于训练集数据,采用TD算法对步骤S2所述Actor

Critic强化学习模型进行训练,输入特征数据,识别特征数据所属焊接标注情况;步骤S4、基于训练好的Actor

Critic强化学习模型,基于测试集特征数据进行测试;通过输入的时序数据特征,实时识别所属焊接情况;最终部署测试完毕的Actor

Critic强化学习模型,实时接收传感器采集的数据,并识别当前焊接状态。2.根据权利要求1所述的一种基于Actor

Critic强化学习模型的焊接异常实时诊断方法,其特征在于,所述步骤S1中对多维传感数据进行预处理步骤包括:步骤S1.1、通过部署在焊机终端的各类传感器实时采集焊接过程中的高频时序数据,本实施例中采集的数据包括电流、电压、送丝速度和保护气流速;步骤S1.2、对采集到的时序数据根据实际焊接情况进行标注,将正常焊接标注为0,对不同焊接异常问题分别标注不同代号;步骤S1.3、针对采集的时序数据进行特征构造;构造特征包括时域特征、频域特征和时频域特征;步骤S1.4、基于步骤S1.3中提取的特征及对应的标签构建入模数据集,包括训练集和测试集。3.根据权利要求1所述的一种基于Actor

Critic强化学习模型的焊接异常实时诊断方法,其特征在于,所述步骤S2中Actor

Critic强化学习模型搭建步骤包括:步骤S2.1、创建强化学习环境;所述强化学习环境包括状态和执行的动作action;其中状态代表所有训练集样本数据,动作则代表对当前输入的样本数据进行标签预测;强化学习环境基于智能体产生的动作action,利用step函数产生下一时刻状态和下一时刻回报,然后再反馈至智能体,进入下一轮循环;其中,强化学习环境对于智能体执行动作获得的回报reward规则如下:当标签预测结果与真实标签相符时,reward=1分,不符则reward=

1分;对于初始化及重置动作,则reward=0分;步骤S2.2、基于DQN网络设置智能体结构;DQN网络结构包括1层输入层、不少于2层线性层和1层线性输出层,激活函数采用Relu;智能体的输入包括当前初始化状态s
t,
以及初始化回报r
t
,强化学习环境通过动作action产生下一时刻状态s
t+1
和回报r
t+1
,当前初始化状态代表环境自身随机产生的训练集样本数据,初始化回报代表环境初始化的回报,即为0,回报r
t+1
代表智能体进行预测后获取的...

【专利技术属性】
技术研发人员:姚志豪李波
申请(专利权)人:苏芯物联技术南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1