基于运动激励聚合和时序差分模型的装配动作识别模型制造技术

技术编号:35067219 阅读:105 留言:0更新日期:2022-09-28 11:25
本发明专利技术涉及基于运动激励聚合和时序差分模型的装配动作识别模型,包括依次连接的二维卷积层、4个残差模块、全连接层和全局平均池化层;二维卷积层对输入的数据进行特征提取,并将提取到的数据特征输入第一个残差模块;输入的数据为包含若干帧的视频;各残差模块依次对输入的数据进行特征提取,并传输给下一个残差模块,第四个残差模块将提取到的数据特征输入全连接层;全连接层和全局平均池化层根据输入的数据特征完成平均所有帧的预测结果和装配动作类型的识别,并将识别结果输出。本发明专利技术以装配动作视频数据作为网络输入,输出对应装配动作类型,实现了端到端的动作类型识别。实现了端到端的动作类型识别。实现了端到端的动作类型识别。

【技术实现步骤摘要】
基于运动激励聚合和时序差分模型的装配动作识别模型


[0001]本专利技术涉及基于运动激励聚合和时序差分模型的装配动作识别模型,属于计算机视觉和智能制造


技术介绍

[0002]装配动作识别是手动装配监控、人机协作和装配操作人体工程学分析的基础。当前大规模定制已成为制造业的趋势,在大规模定制产品的装配过程中,产品结构复杂且组装步骤多,装配过程中一旦出现漏装、错装甚至工人的不规范操作都会对产品质量产生不利影响。在装配过程中对装配动作识别将有助于获取机械装配过程的动作信息,及时发现其中不规范甚至错误动作,进而实现装配监测,提高机械产品的生产效率,保障机械产品质量水平,对机械装配过程智能监测具有重要研究价值。
[0003]目前,根据实现方法来分类,可以将装配动作识别方法划分为基于传感器和基于视觉的。基于传感器的装配动作识别,需要配备相应的传感器,不灵活,操作复杂,可扩展性差,用户体验不能得到有效的保障,因此只能适用于特定的领域。基于视觉的装配动作识别方法又可划分为单帧图像和视频两种。基于单帧图像的装配识别方法中,由于缺乏对动作的连续时间信息的有效提取,往往会导致错误判断;而基于视频的装配识别技术可以有效地提取出视频中的时空信息,提高了识别的准确度。基于视频数据的装配动作识别方法因其具有较强的可扩展性和高灵活性而受到了广泛的研究与应用。

技术实现思路

[0004]为了克服上述问题,本专利技术提供一种基于运动激励聚合和时序差分模型的装配动作识别模型,该模型以装配动作视频数据作为网络输入,输出对应装配动作类型,实现了端到端的动作类型识别。
[0005]本专利技术的技术方案如下:
[0006]基于运动激励聚合和时序差分模型的装配动作识别模型,包括依次连接的二维卷积层、4个残差模块、全连接层和全局平均池化层;
[0007]所述二维卷积层对输入的数据进行特征提取,并将提取到的数据特征输入第一个残差模块;所述输入的数据为包含若干帧的视频;
[0008]第一个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第二个残差模块;第二个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第三个残差模块;第三个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第四个残差模块;第四个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入全连接层;
[0009]所述全连接层和所述全局平均池化层根据输入的数据特征完成平均所有帧的预测结果和装配动作类型的识别,并将识别结果输出。
[0010]进一步的,所述残差模块具体为
[0011]输入的特征图A依次经过的1
×
1的二维卷积层、运动激励模块、时间整合模块、1
×
1的二维卷积层、时序差分模块和1
×
1的二维卷积层,得到处理后的特征图A1;
[0012]将所述特征图A和所述特征图A1相加并输出;
[0013]所述运动激励模块在时空特征维度上通过计算时空差异来激发特征通道之间的运动敏感特性;
[0014]所述时间整合模块通过多尺度残差架构,对输入的特征图进行子卷积操作,使每一个装配动作视频帧完成多个时间层次上的时间聚合;
[0015]所述时序差分模块通过计算跨段序列的时间差异完成对时序特征的增强。
[0016]进一步的,所述运动激励模块具体为:
[0017]对输入的特征图X进行1
×
1的卷积处理;
[0018]对相邻的两特征图进行时序分离,将时间t+1时的特征图经过3
×
3卷积处理后与时间t时的特征图相减,得到时间步t的运动级特征M;
[0019]通过全局平均池化层总结空间信息;
[0020]通过1
×
1的2D卷积将所述运动级特征M的通道维度扩展为原始通道维度C;
[0021]通过sigmoid函数得到运动注意权重A;
[0022]通过残差连接将所述特征图X和注意力权重A进行融合,并输出。
[0023]进一步的,所述时间聚合模块具体为:
[0024]将输入的特征图Y沿通道维度分割成四个形状为[N,T,C,H,W]的子片段X1,X2,X3和X4;
[0025]将所述子片段X1作为子片段X
1D

[0026]对子片段X2进行一维时间卷积和二维空间卷积处理,得到子片段X
2D

[0027]将所述子片段X
2D
与所述子片段X3相加后,进行一维时间卷积和二维空间卷及处理,得到子片段X
3D

[0028]将所述子片段X
3D
与所述子片段X4相加后,进行一维时间卷积和二维空间卷及处理,得到子片段X
4D

[0029]将所述子片段X1,X
2D
,X
3D
和X
4D
联结后得到特征图X
D
,并输出。
[0030]进一步的,所述时序差分模块具体为:
[0031]使用卷积操作来对输入的特征图F的通道维度压缩为比率r,
[0032]对t和t+1时刻的所述特征图F分别进行卷积处理,得到t和t+1时刻的特征图F
11
和F
12

[0033]将所述特征图F
12
减去t时刻的所述特征图F,得到特征图F
21

[0034]将t+1时刻的所述特征图F减去所述特征图F
11
,得到特征图F
22

[0035]将所述特征图F
21
和F
22
分别依次进行池化处理,卷积处理和上采样,得到特征图F
31
和F
32

[0036]将所述特征图F
12
经过卷积处理后,与所述特征图F
21
和F
31
相加,得到特征图F
41

[0037]将所述特征图F
11
经过卷积处理后,与所述特征图F
22
和F
32
相加,得到特征图F
42

[0038]将所述特征图F
41
和F
42
分别依次经过卷积处理和激活函数激活后相加,得到特征图F5;
[0039]对所述特征图F和所述特征图F5进行点乘处理后,再与所述特征图F相加,得到特
征图F

,并输出。
[0040]进一步的,训练过程包括以下步骤:
[0041]使用疏松时间采样策略对变长视频进行采样;
[0042]利用运动激励模块获取增强短程时间特征信息;
[0043]利用时间聚合模块对长程时间特征信息进行建模;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于运动激励聚合和时序差分模型的装配动作识别模型,其特征在于,包括依次连接的二维卷积层、4个残差模块、全连接层和全局平均池化层;所述二维卷积层对输入的数据进行特征提取,并将提取到的数据特征输入第一个残差模块;所述输入的数据为包含若干帧的视频;第一个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第二个残差模块;第二个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第三个残差模块;第三个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入第四个残差模块;第四个残差模块对输入的数据特征进行特征提取,并将提取到的数据特征输入全连接层;所述全连接层和所述全局平均池化层根据输入的数据特征完成平均所有帧的预测结果和装配动作类型的识别,并将识别结果输出。2.根据权利要求1所述基于运动激励聚合和时序差分模型的装配动作识别模型,其特征在于,所述残差模块具体为:输入的特征图A依次经过的1
×
1的二维卷积层、运动激励模块、时间整合模块、1
×
1的二维卷积层、时序差分模块和1
×
1的二维卷积层,得到处理后的特征图A1;将所述特征图A和所述特征图A1相加并输出;所述运动激励模块在时空特征维度上通过计算时空差异来激发特征通道之间的运动敏感特性;所述时间整合模块通过多尺度残差架构,对输入的特征图进行子卷积操作,使每一个装配动作视频帧完成多个时间层次上的时间聚合;所述时序差分模块通过计算跨段序列的时间差异完成对时序特征的增强。3.根据权利要求2所述基于运动激励聚合和时序差分模型的装配动作识别模型,其特征在于,所述运动激励模块具体为:对输入的特征图X进行1
×
1的卷积处理;对相邻的两特征图进行时序分离,将时间t+1时的特征图经过3
×
3卷积处理后与时间t时的特征图相减,得到时间步t的运动级特征M;通过全局平均池化层总结空间信息;通过1
×
1的2D卷积将所述运动级特征M的通道维度扩展为原始通道维度C;通过sigmoid函数得到运动注意权重A;通过残差连接将所述特征图X和注意力权重A进行融合,并输出。4.根据权利要求3所述基于运动激励聚合和时序差分模型的装配动作识别模型,其特征在于,所述时间聚合模块具体为:将输入的特征图Y沿通道维度分割成四个形状为[N,T,C,H,W]的子片段X1,X2,X3和X4;将所述子片段X1作为子片段X
1D
;对子片段X2进行一维时间卷积和二维空间卷积处理,得到子片段X
2D
;将所述子...

【专利技术属性】
技术研发人员:陈成军赵希聪王金磊史宏思
申请(专利权)人:青岛理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1