基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法技术

技术编号:23606125 阅读:21 留言:0更新日期:2020-03-28 06:52
本发明专利技术公开了一种基于DDPG‑RAM算法的复杂光照条件下织物缺陷检测方法,采集织物缺陷图像作为训练样本‑对织物缺陷图像进行图像增强‑利用图像增强后的训练样本对DDPG‑RAM模型进行训练,确定训练后的网络参数‑利用训练后的DDPG‑RAM模型对织物缺陷图像进行缺陷检测。实现了织物缺陷的自动检测,且运行速度快,具有更高的准确性,效果更好。

Fabric defect detection under complex illumination based on ddpg-ram algorithm

【技术实现步骤摘要】
基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法
本专利技术涉及织物缺陷检测
,具体涉及一种基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法。
技术介绍
强化学习自从上世纪提出以来就广受关注,作为机器学习的一大分支,相较于监督学习和非监督学习,强化学习是在不断与环境的交互中学习状态和行为之间的映射关系从而使得数值回报达到最大化,在缺陷检测方面,强化学习针对不同缺陷种类和不同缺陷的表现形式都有着都有着学习能力,目前应用最为广泛的模型是基于Q-learning、DPG和DDPG模型算法,DDPG算法是利用DQN扩展Q-learning学习算法对DPG改造后得到的,针对前两种模型只能离散输出的问题,DDPG应用一种基于Actor-Critic框架的算法,解决了连续空间上的深度强化学习问题,相较于之前的深度学习算法在环境适应力上都有着显著的优势,另一方面,对图像的特征识别,循环注意力模型(RAM)通过模仿人眼的注意力机制充分的结合CNN和RNN在缺陷识别上的优势,通常处理大规模图像特征识别。针对织物缺陷检测的问题,传统方法是基于CNN模型构建多层网络针对织物特定的缺陷进行识别和分类的,此类模型较为复杂且当输入图像数据量较大时就有着明显的劣势了,而且当缺陷种类较多时传统模型不能自动识别。
技术实现思路
本专利技术的目的就是针对上述技术的不足,提供一种能自动检测基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法。为实现上述目的,本专利技术所设计的基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法如下:1)采集织物缺陷图像作为训练样本;2)对步骤1)中织物缺陷图像进行预处理,选用图像增强算法对复杂光照条件下的织物图像进行图像增强;3)利用步骤2)中图像增强后的训练样本对DDPG-RAM模型进行训练,确定训练后的网络参数3.1)构建DDPG-RAM模型,并随机初始化网络参数;构建DDPG-RAM模型,结合了深度确定性策略梯度(DDPG)算法和循环注意力模型(RAM),该DDPG-RAM模型包括Glimpse网络,Core网络,Action网络,Actor网络和Critic网络五个部分,Actor网络、Critic网络又分别构建了两个结构完全相同但参数不同的eval网络和target网络,从而形成Actoreval网络、Actortarget网络、Criticeval网络和Critictarget网络共四个网络,其中,Actor网络为行为网络、Critic网络为评价网络、eval网络为估计网络和target网络为目标网络,Actoreval网络为行为估计网络、Actortarget网络为行为目标网络、Criticeval网络为评价估计网络、Critictarget网络为为评价目标网络;然后对该RAM模型进行随机初始化,即随机初始化Glimpse网络、Core网络、Action网络、Actoreval网络、Criticeval网络的参数μ(h|θμ)、Q(h,l|θQ),以及将Actoreval网络和Criticeval网络的值赋予与之对应的target网络,即θμ→θμ',θQ→θQ';3.2)经验池初始化为0,大小为max_size×(2×ht_dim+2+1);设经验池为i行、j列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中i为样本容量,j为每个样本储存的信息数量,经验池大小为j=max_size×(2×ht_dim+2+1),其中ht_dim为状态的维度;公式中的数字2为动作的维度,公式中的数字1为用于在经验池中存储奖励信息的预留空间;3.3)构造一个随机正态分布N对注意力位置施加干扰3.4)对DDPG-RAM模型进行训练4)利用训练后的DDPG-RAM模型对织物缺陷图像进行缺陷检测进一步地,所述步骤3.3)中,初始化一个方差为var2的随机正态分布N,对注意力位置施加干扰,用于探索环境;将当前隐藏状态ht作为Actoreval网络的输入,输出得到一个估计注意力位置lt',可以初始化一个方差为var2,均值为lt'的随机正态分布N,随机正态分布N对这个估计注意力位置lt'-1施加了干扰,用于探索环境,从中随机输出一个实际注意力位置lt-1,用于探索环境,其中t为当前输入隐藏状态的时刻,Actoreval网络的参数为θtQ。进一步地,所述步骤3.4)具体过程如下:3.4.1)随机初始化第一个注意力位置l0;3.4.2)根据第一个注意力位置l0获得Glimpse特征;Glimpse网络包含着Glimpse感知器,Glimpse感知器对步骤2)中图像增强后待处理的五大类织物缺陷图像x进行采样,围绕着第一个注意力位置l0,获得以第一个注意力位置l0为图像凝视区域中心的4个长度不同的正方形图像,然后使用最近邻插值法将它们统一变换为尺寸为32×32的一组图像,图像第一个注意力位置l0的中间区域是较高分辨率的图像,从中间区域向外的更大区域是逐渐降低的低分辨率图像;然后Glimpse感知器根据所获得的该组图像以及第一个注意力位置l0进行特征提取,通过全连接层连接,得到Glimpse网络输出的特征g0;3.4.3)将时间序列Core网络的第一个隐藏状态h0初始化为0;3.4.4)将Core网络的隐藏状态h0和Glimpse网络的特征g0作为Core网络输入,输出得到新隐藏状态h1;Core网络实际上就是一个RNN网络,时序地将上一个时间序列Core网络输出的隐藏状态h0和当前通过Glimpse网络输出的特征g0这两个特征结合起来,作为Core网络的输入,输出得到RNN网络中一个新的隐藏状态h1;3.4.5)将Core网络输出的新隐藏状态h1作为Action网络的输入,输出得到预测分类结果a1,再进一步根据预测的分类结果a1和图像的实际标签label得到奖励函数r1,其中若分类结果a的正确,则奖励函数为r=1,否则奖励函数为r=0;3.4.6)将Core网络输出的新隐藏状态h1作为Actoreval网络的输入,输出得到下一个注意力位置l1,lt~N(μ(ht,ftg|θμ),var);3.4.7)在经验池中储存该组状态转移信息:ht-1、lt-1、rt、ht;将上一个时间序列Core网络的隐藏状态ht-1,上一个时间序列注意力位置lt-1,当前的奖励函数rt以及当前的隐藏状态ht存储在经验池中,并将一个时间序列Core网络的隐藏状态ht-1,上一个时间序列注意力位置lt-1,当前的奖励函数rt以及当前的隐藏状态ht统称为状态转移信息;3.4.8)循环步骤3.4.2)至步骤3.4.7),重复进行T次;3.4.9)在运行过程中,当经验池储存满时,最新的状态转移信息会替代老的状态转移信息;后续新的隐藏状态ht+1会替代老的隐藏状态ht,重复步骤3.4.7),将得到的状态转移信息存储在经验池中,直至经验池被存满,本文档来自技高网...

【技术保护点】
1.一种基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法,其特征在于:所述检测方法如下:/n1)采集织物缺陷图像作为训练样本;/n2)对步骤1)中织物缺陷图像进行预处理,选用图像增强算法对复杂光照条件下的织物图像进行图像增强;/n3)利用步骤2)中图像增强后的训练样本对DDPG-RAM模型进行训练,确定训练后的网络参数/n3.1)构建DDPG-RAM模型,并随机初始化网络参数;/n构建DDPG-RAM模型,结合了深度确定性策略梯度(DDPG)算法和循环注意力模型(RAM),该DDPG-RAM模型包括Glimpse网络,Core网络,Action网络,Actor网络和Critic网络五个部分,Actor网络、Critic网络又分别构建了两个结构完全相同但参数不同的eval网络和target网络,从而形成Actor eval网络、Actor target网络、Critic eval网络和Critictarget网络共四个网络,其中,Actor网络为行为网络、Critic网络为评价网络、eval网络为估计网络和target网络为目标网络,Actor eval网络为行为估计网络、Actor target网络为行为目标网络、Critic eval网络为评价估计网络、Critic target网络为为评价目标网络;然后对该RAM模型进行随机初始化,即随机初始化Glimpse网络、Core网络、Action网络、Actor eval网络、Critic eval网络的参数...

【技术特征摘要】
1.一种基于DDPG-RAM算法的复杂光照条件下织物缺陷检测方法,其特征在于:所述检测方法如下:
1)采集织物缺陷图像作为训练样本;
2)对步骤1)中织物缺陷图像进行预处理,选用图像增强算法对复杂光照条件下的织物图像进行图像增强;
3)利用步骤2)中图像增强后的训练样本对DDPG-RAM模型进行训练,确定训练后的网络参数
3.1)构建DDPG-RAM模型,并随机初始化网络参数;
构建DDPG-RAM模型,结合了深度确定性策略梯度(DDPG)算法和循环注意力模型(RAM),该DDPG-RAM模型包括Glimpse网络,Core网络,Action网络,Actor网络和Critic网络五个部分,Actor网络、Critic网络又分别构建了两个结构完全相同但参数不同的eval网络和target网络,从而形成Actoreval网络、Actortarget网络、Criticeval网络和Critictarget网络共四个网络,其中,Actor网络为行为网络、Critic网络为评价网络、eval网络为估计网络和target网络为目标网络,Actoreval网络为行为估计网络、Actortarget网络为行为目标网络、Criticeval网络为评价估计网络、Critictarget网络为为评价目标网络;然后对该RAM模型进行随机初始化,即随机初始化Glimpse网络、Core网络、Action网络、Actoreval网络、Criticeval网络的参数μ(h|θμ)、Q(h,l|θQ),以及将Actoreval网络和Criticeval网络的值赋予与之对应的target网络,即θμ→θμ',θQ→θQ';
3.2)经验池初始化为0,大小为max_size×(2×ht_dim+2+1);
设经验池为i行、j列的二维矩阵,二维矩阵中每个元素的值初始化为0,其中i为样本容量,j为每个样本储存的信息数量,经验池大小为j=max_size×(2×ht_dim+2+1),其中ht_dim为状态的维度;公式中的数字2为动作的维度,公式中的数字1为用于在经验池中存储奖励信息的预留空间;
3.3)构造一个随机正态分布N对注意力位置施加干扰
3.4)对DDPG-RAM模型进行训练
4)利用训练后的DDPG-RAM算法对复杂光照条件下织物缺陷图像进行缺陷检测。


2.根据权利要求1所述基于DDPG-RAM算法的复杂光照条件下的织物缺陷检测方法,其特征在于:所述步骤3.3)中,初始化一个方差为var2的随机正态分布N,对注意力位置施加干扰,用于探索环境;
将当前隐藏状态ht作为Actoreval网络的输入,输出得到一个估计注意力位置l′t,可以初始化一个方差为var2,均值为l′t的随机正态分布N,随机正态分布N对这个估计注意力位置l′t-1施加了干扰,用于探索环境,从中随机输出一个实际注意力位置lt-1,用于探索环境,其中t为当前输入隐藏状态的时刻,Actoreval网络的参数为


3.根据权利要求1所述基于DDPG-RAM的复杂光照条件下的织物缺陷检测方法,其特征在于:所述步骤3.4)具体过程如下:
3.4.1)随机初始化第一个注意力位置l0;
3.4.2)根据第一个注意力位置l0获得Glimpse特征;
Glimpse网络包含着Glimpse感知器,Glimpse感知器对步骤2)中图像增强后待处理的五大类织物缺陷图像x进行采样,围绕着第一个注意力位置l0,获得以第一个注意力位置l0为图像凝视区域中...

【专利技术属性】
技术研发人员:柯丰恺刘欢平周唯倜赵大兴孙国栋冯维
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1