一种基于双流结构增强型检测器的工作流检测方法技术

技术编号:34693175 阅读:15 留言:0更新日期:2022-08-27 16:28
本发明专利技术公开了一种基于双流结构增强型检测器的工作流检测方法。本发明专利技术以双流结构的方式把表征检测器和运动检测器结合在一起,预测帧上出现的运动目标。同时,在检测器中引入带有特征对齐特性的锚框改进子模块,根据在各帧上检测到的候选框输出适变的锚框立方体。为了提高运动目标的捕获能力,检测器中应用分层聚合策略提升模型中间层特征图的区分度。另外,使用层正则化减少检测器内部层之间的内部协变量偏移现象,促使整个训练过程更加高效稳定。最后,基于提取出的显著性特征,利用空时域动作管道生成分支完成生产操作行为的分类和定位回归。本发明专利技术可部署到工厂生产场景中,实时检测生产操作全过程,实现对工人的生产操作行为检测。行为检测。行为检测。

【技术实现步骤摘要】
一种基于双流结构增强型检测器的工作流检测方法


[0001]本专利技术属于工作流检测
,具体涉及一种基于双流结构增强型检测器的工作流检测方法。

技术介绍

[0002]目前,工厂智能化改造的主要措施包括:安装数字化CPS系统,铺设传感器设备以及多视角架设生产监控摄像头等,实时监控、记录着生产全过程。然而,由于监控操作管理人员仅注重生产安全管理,并未考虑对生产过程的分析和流程改进以及受限于工作人员的精力、体力因素,不能对生产全过程实施观察与监视。另外,大部分制造业企业更多关心的是利润,缺乏专业人员对CPS及传感器设备和生产日志等工业大数据进行有效分析,海量的工业大数据并未得到充分挖掘使用。
[0003]在过去十多年中,计算机视觉技术在生产上的应用受到越来越多的研究者关注。虽然现在实验室已开发出了许多先进的检测的模型,但由于在复杂的制造环境中,存在着动作移动速度快,运动时延短,遮挡和视角变化等因素。因此,在工厂生产环境中的动作行为识别还存在较大的探索空间。这些检测模型大都从帧级或视频段层面开展检测,然后把这些帧级或片段级的检测候选框沿着时序追踪或链接起来形成空时动作管道(action tube)。虽然这些基于目标检测的方法取得了一定效果,但它们并未充分利用连续帧之间的运动信息,只是把视频帧作为一系列独立的RGB图片来处理,当应用到工业生产环境中时,常常会出现检测错误。

技术实现思路

[0004]本专利技术的目的在于解决现有工作流识别模型中检测器本身的性能提升往往被忽略的问题,并提出一种基于双流结构增强型检测器的工作流检测方法,实现操作行为的精准检测。
[0005]本专利技术所采用的具体技术方案如下:
[0006]一种基于双流结构增强型检测器的工作流检测方法,其包括:
[0007]S1、针对工作流视频数据集中的每个工作流视频,按每K帧为一组进行分割,形成一系列视频段;对每一个视频段,用TVL1算法计算出光流图像作为第一输入图像,同时从视频段中取样出一帧视频帧作为第二输入图像;以一组第一输入图像、第二输入图像以及图像中人工标注的目标的位置和类别标签构成一个训练样本;由一系列训练样本构成训练数据集;
[0008]S2、利用所述训练数据集中连续的训练样本训练双流结构增强型检测器,使其能从图像中检测出目标位置和类别;
[0009]所述双流结构增强型检测器包括两个并行的运动检测器和表征检测器以及分类层和回归层;
[0010]所述运动检测器和表征检测器的网络结构相同,均包含锚框改进子模块以及由特
征提取网络、第一汇聚层、第二汇聚层和特征堆叠层组成的主干网络,但运动检测器和表征检测器的检测器输入不同,其中运动检测器的检测器输入为所述第一输入图像,表征检测器的检测器输入为所述第二输入图像;
[0011]所述锚框改进子模块用于生成修正锚框,并辅助双流结构增强型检测器的训练;
[0012]所述主干网络中,特征提取网络由11个级联的卷积块组成,其中前5个卷积块为VGG

16模型自身的前5个卷积块,而后6个卷积块为新的卷积块;第6个卷积块中只包含一层卷积,其中卷积核尺寸为38*38*512,激活函数为ReLU,每一个像素位置锚框数设置为4;第7个卷积块中只包含一层卷积,其中卷积核尺寸为19*19*1024,激活函数为ReLU,每一个像素位置锚框数设置为6;第8个卷积块中包含两层卷积,其中卷积核尺寸均为10*10*512,激活函数为ReLU,每一个像素位置锚框数设置为6;第9个卷积块中包含两层卷积,其中卷积核尺寸均为5*5*256,激活函数为ReLU,每一个像素位置锚框数设置为6;第10个卷积块中包含两层卷积,其中卷积核尺寸均为3*3*256,激活函数为ReLU,每一个像素位置锚框数设置为4;第11个卷积块中包含两层卷积,其中层卷积核尺寸均为1*1*256,激活函数为ReLU,每一个像素位置锚框数设置为4;所述第一汇聚层中,先从所述特征提取网络中抽取第4个卷积块中第3层卷积特征、第5个卷积块中第3层卷积特征和第7个卷积块的卷积特征,并将抽取到的三个特征各自经过层正则化变换后进行聚合,最后通过全连接操作形成低层级的边缘特征并作为第一汇聚层的输出特征;所述第二汇聚层中,先从所述特征提取网络中抽取第7个卷积块的卷积特征和第8个卷积块中第2层卷积特征,并将抽取到的两个特征各自经过层正则化变换后进行聚合,最后通过全连接操作形成高层级的语义特征并作为第二汇聚层的输出特征;所述特征堆叠层中,将第一汇聚层的输出特征、第二汇聚层的输出特征以及特征提取网络中第8个卷积块的输出特征、第9个卷积块的输出特征、第10个卷积块的输出特征和第11个卷积块的输出特征进行堆叠,形成堆叠特征并作为主干网络所在的运动检测器或表征检测器的输出;
[0013]所述运动检测器输出的特征和表征检测器输出的特征通过拼接后再对拼接特征进行层正则化变换,层正则化变换后的特征分别输入分类层和回归层,由分类层输出锚框的类别标签,由回归层输出锚框的位置坐标;
[0014]S3、从生产操作视频中提取的包含完整工作流的待检测工作流视频,将其按每K帧为一组进行分割,形成一系列视频段,对每一个视频段,用TVL1算法计算出光流图像作为第一输入图像,同时从视频段中取样出一帧视频帧作为第二输入图像;将第一输入图像和第二输入图像分别输入训练后的所述双流结构增强型检测器中,通过分类层和回归层分别输出检测目标的锚框类别标签以及位置坐标,形成视频段的检测结果;
[0015]S4、基于待检测工作流视频中所有视频段的检测结果,利用动作管道生成算法生成待检测工作流视频中生产操作行为的分类和时间定位回归结果。
[0016]作为优选,所述锚框改进子模块中,首先获取特征提取网络中第五层卷积块输出的特征图f
vgg
,然后在特征图f
vgg
上的每个位置点设置k=9种锚框,每个锚框与3
×
3窗口进行卷积操作,形成512维向量;再将所述512维向量输入两个并行的全连接层中,一个全连接层输出用于判断锚框属于前景或背景的分数,另一个全连接层输出锚框的位置坐标,从而得到修正锚框。
[0017]作为优选,所述卷积核的大小参数p为3。
[0018]作为优选,所述双流结构增强型检测器进行训练时,其总损失函数设置为:
[0019][0020]其中:表示正样本总数,i、j分别为训练样本中的类别索引和计数索引;为二元变量,当锚框样本为正样本时为1,否则为0;L
conf
表示分类损失函数,用公式表示为:
[0021][0022]其中:φ和分别表示锚框立方体正样本集合和负样本集合;表示预测出的锚框立方体属于标签y的置信分;表示预测出的锚框立方体属于背景的置信分;
[0023]L
reg
表示回归损失函数,用公式表示为:
[0024][0025]其中:T表示工作流视频的总帧数,(x,y)是动作微管中每个锚框的中心,w和h分别为锚框的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双流结构增强型检测器的工作流检测方法,其特征在于,包括:S1、针对工作流视频数据集中的每个工作流视频,按每K帧为一组进行分割,形成一系列视频段;对每一个视频段,用TVL1算法计算出光流图像作为第一输入图像,同时从视频段中取样出一帧视频帧作为第二输入图像;以一组第一输入图像、第二输入图像以及图像中人工标注的目标的位置和类别标签构成一个训练样本;由一系列训练样本构成训练数据集;S2、利用所述训练数据集中连续的训练样本训练双流结构增强型检测器,使其能从图像中检测出目标位置和类别;所述双流结构增强型检测器包括两个并行的运动检测器和表征检测器以及分类层和回归层;所述运动检测器和表征检测器的网络结构相同,均包含锚框改进子模块以及由特征提取网络、第一汇聚层、第二汇聚层和特征堆叠层组成的主干网络,但运动检测器和表征检测器的检测器输入不同,其中运动检测器的检测器输入为所述第一输入图像,表征检测器的检测器输入为所述第二输入图像;所述锚框改进子模块用于生成修正锚框,并辅助双流结构增强型检测器的训练;所述主干网络中,特征提取网络由11个级联的卷积块组成,其中前5个卷积块为VGG

16模型自身的前5个卷积块,而后6个卷积块为新的卷积块;第6个卷积块中只包含一层卷积,其中卷积核尺寸为38*38*512,激活函数为ReLU,每一个像素位置锚框数设置为4;第7个卷积块中只包含一层卷积,其中卷积核尺寸为19*19*1024,激活函数为ReLU,每一个像素位置锚框数设置为6;第8个卷积块中包含两层卷积,其中卷积核尺寸均为10*10*512,激活函数为ReLU,每一个像素位置锚框数设置为6;第9个卷积块中包含两层卷积,其中卷积核尺寸均为5*5*256,激活函数为ReLU,每一个像素位置锚框数设置为6;第10个卷积块中包含两层卷积,其中卷积核尺寸均为3*3*256,激活函数为ReLU,每一个像素位置锚框数设置为4;第11个卷积块中包含两层卷积,其中层卷积核尺寸均为1*1*256,激活函数为ReLU,每一个像素位置锚框数设置为4;所述第一汇聚层中,先从所述特征提取网络中抽取第4个卷积块中第3层卷积特征、第5个卷积块中第3层卷积特征和第7个卷积块的卷积特征,并将抽取到的三个特征各自经过层正则化变换后进行聚合,最后通过全连接操作形成低层级的边缘特征并作为第一汇聚层的输出特征;所述第二汇聚层中,先从所述特征提取网络中抽取第7个卷积块的卷积特征和第8个卷积块中第2层卷积特征,并将抽取到的两个特征各自经过层正则化变换后进行聚合,最后通过全连接操作形成高层级的语义特征并作为第二汇聚层的输出特征;所述特征堆叠层中,将第一汇聚层的输出特征、第二汇聚层的输出特征以及特征提取网络中第8个卷积块的输出特征、第9个卷积块的输出特征、第10个卷积块的输出特征和第11个卷积块的输出特征进行堆叠,形成堆叠特征并作为主干网络所在的运动检测器或表征检测器的输出;所述运动检测器输出的特征和表征检测器输出的特征通过拼接后再对拼接特征进行层正则化变换,层正则化变换后的特征分别输入分类层和回归层,由分类层输出锚框的类别标签,由回归层输出锚框的位置坐标;S3、从生产操作视频中提取的包含完整工作流的待检测工作流视频,将其按每K帧为一组进行分割,形成一系列视频段,对每一个视频段,用TVL1算法计算出光流图像作为第一输
入图像,同时从视频段中取样出一帧视频帧作为第二输入图像;将第一输入图像和第二输入图像分别输入训练后的所述双流结构增强型检测器中,通过分类层和回归层分别输出检测目标的锚框类别标签以及位置坐标,形成视频段的检测结果;S4、基于待检测工...

【专利技术属性】
技术研发人员:胡海洋张敏李忠金
申请(专利权)人:杭州电子科技大学上虞科学与工程研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1