一种面向智慧工厂的视频动作识别方法及系统技术方案

技术编号：34527069 阅读：22 留言：0更新日期：2022-08-13 21:18

本发明专利技术涉及深度学习动作识别技术领域，具体是一种面向智慧工厂的视频动作识别方法及系统，该识别方法具体包括如下步骤：S101、工厂视频数据片段生成步骤S102、工厂工人作业动作数据集生成步骤；S103、工厂作业目标检测数据集生成步骤；S104、工厂工人动作识别模型建模方法步骤；S105、工厂工人位置信息编码网络训练步骤；S106、工厂工人行为识别算法的搭建；S107、行为识别输入步骤；S108、行为识别输出步骤；具体系统包括：模型训练程序、标注文件生成程序、模型训练电子设备、处理计算中心、服务端、视频监控终端；相对于传统动作识别方法通常只采用RGB特征对视频进行表示，本发明专利技术在获取视频特征时，将会大大排除其余信息影响，从而提高工厂工人动作识别的效果。而提高工厂工人动作识别的效果。而提高工厂工人动作识别的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向智慧工厂的视频动作识别方法及系统

[0001]本专利技术涉及深度学习动作识别
，具体是一种面向智慧工厂的视频动作识别方法及系统。

技术介绍

[0002]工厂工人动作识别的工作主要集中在对与工人动作的定义以及数据集的制作、动作识别模型的建模。目前主流的方法如下：一、采用图像识别方法，输入一张图片识别工人某一瞬间的状态，以此判断工人的动作。二、采用视频分类方法，将一段帧序列输入网络识别动作。三、采用传感器抽取与动作相关的信息，再结合深度学习方法判断。
[0003]现有技术存在的缺点在于：(1)有很多动作是无法根据一瞬间的状态来进行判断的，还必须结合时序关系，所以基于图像识别方法的动作识别方法无法处理这种物体。(2)对于动作的识别很大程度上依赖于对场景、运动相关物品的识别，而不是对运动本身识别。因此当无法从场景和相关物品本身获得对动作识别有用的信息时，识别的结果较差。(3)目前的深度学习方法对时序信息建模的水平还不够好，无法对不同的时序关系进行准确的建模。(4)目前，动作识别的研究大多采用有监督学习的方法对动作进行检测，可以再数据集上取得较高的准确率和召回率。然而，受限于标注视频数据需要的成本，不能对现实场景中的海量的动态行为进行覆盖，从而使实际落地时效果不佳(5)此外，由于领域的特殊性，目前尚未有开放统一的标注数据集，严重制约着依赖训练数据集的基于深度学习模型方法的识别效果。

技术实现思路

[0004]为了解决上述问题，本专利技术提出一种面向智慧工厂的视频动作识别方法及系统。
>[0005]一种面向智慧工厂的视频动作识别方法，具体包括如下步骤：
[0006]S101、工厂视频数据片段生成步骤：利用图像预处理技术对工厂工人作业的视频进行处理和加工，将所有原始录像转换为可利用的工厂工人作业数据片段；
[0007]S102、工厂工人作业动作数据集生成步骤：将工厂工人作业数据片段打好标签进行归类，将工厂工人作业数据片段制作为可以供动作识别模型学习的数据；
[0008]S103、工厂作业目标检测数据集生成步骤：将工人作业视频输出成帧，对图片进行采样，对人、工作台、作业工件类目标进行选框标注。
[0009]S104、工厂工人动作识别模型建模方法步骤：将工厂工人作业动作数据集数据集数据通过帧采样，裁切和数据增强后，转化为模型可接受的标准数据序列输入适用与视频理解的3D
‑
ResNet深度神经网络进行模型的训练；
[0010]S105、工厂工人位置信息编码网络训练步骤：将工厂作业目标检测数据集经过缩放、归一化类预处理，以及翻转、随机位置、mosaic类数据增强方法后输入目标检测算法进行训练，以使其能提供工人、操作台以及被操作工件的位置信息，然后将位置信息嵌入一个多通道矩阵输入位置编码支路训练；
[0011]S106、工厂工人行为识别算法的搭建：将训练好的动作识别模型以及位置信息编码模型尾部输出的深度特征拼接起来，使动作识别网络和位置信息编码网络分别形成动作识别支路和位置信息编码支路，组成包含位置信息编码的反应工人行为的深度特征，再输入一层全连接层并且冻结之前的网络参数进行训练，得到完整的工人工人行为识别模型；
[0012]S107、行为识别输入步骤：将需要识别工人行为的视频输入工厂工人行为识别模型；
[0013]S108、行为识别输出步骤：基于训练好的工厂工人行为识别模型得到行为预测概率向量，再对比行为类别向量，得到行为识别结果，同时将识别结果通过socket通信方式发送至服务器。
[0014]算法的整体训练框架属于监督学习，监督学习的核心思想是，给数据打上标签，训练时根据输入数据的输出结果和标签来优化模型参数，让算法自己找到输入与标签的对应关系，以此从数据集里学到一个最优的模型，在面对没有标签的数据时也能预测对应的标签。
[0015]所述的步骤S101对工厂工人作业的视频进行处理和加工具体包括：对监控视频流数据进行预处理、标注和归类，将所述监控视频流转换为工人动作识别数据集。
[0016]所述的步骤S102中的工厂视频数据片段生成步骤具体如下：先利用图像裁剪技术对视频画幅裁切到工人的工作区域，以排除其他区域的影响，利用视频剪辑技术先对工厂工人作业视频根据动作种类，以动作起始点为开始，动作结束点为终结进行片段剪辑。
[0017]所述的步骤S103的工件目标检测数据的标注规范如下：将工人作业视频输出成帧，对图片进行采样，选出有人操作的工件，并不是画面中所有工件都要标注，只检测正在被工人操作的工件，以避免给神经网络输入无关动作的噪声信息。
[0018]所述的步骤S104中工厂工人行为的识别神经网络由两条神经网络支路构成，其中一条为基于3D
‑
ResNet的经典深度学习动作识别算法，基于3D卷积核构成，可以再时间维度上移动，提取时序特征，直接获取连续的帧序列识别动作；另一条为深度位置信息编码网络，先将目标检测算法提取的帧序列位置信息嵌入一个四维矩阵，再输入深度位置信息编码支路最后将动作识别支路输出的动作建模深度特征与位置信息编码支路输出的深度位置编码进行拼接输入一层全连接层进行预测。
[0019]所述的步骤S105中针对工厂工人动作识别目标检测特点的帧序列位置信息特征嵌入矩阵的设计步骤具体过程如下：采用待检测的视频片段上采样的n个帧进行目标检测，先每一帧上的检测信息嵌入一个k通道的矩阵里，k数量取决与动作识别关注的目标种类的个数，每个通道都是一个1*4大小的矩阵，内含每个目标检测框的信息，每个通道分别代表一类目标的位置信息。
[0020]一种面向智慧工厂的视频动作识别系统，包括：
[0021]模型训练程序，用于输入数据集文件分别到动作识别支路得到动作信息深度向量以及将数据集文件输入到YOLO目标检测网络，得到目标位置信息矩阵再输入位置信息编码网络输出位置信息深度编码；
[0022]标注文件生成程序，将数据集的详细信息以字典文件的形式构造出来，以方便训练模块随时取用；
[0023]模型训练电子设备，用于将模型训练验证循环的得到的模型参数保存为文件，且
将训练验证数据输出为日志文件；
[0024]视频监控终端，用于获取数据；
[0025]处理计算中心，用于将传输来的视频数据处理识别后传输给下一终端；
[0026]服务端，用于传输来的数据进行识别结果存储与使用。
[0027]所述的模型训练程序具体包括：
[0028]视频采样模块，将输入视频中的帧按照等间隔采样或者等间隔随机采样；
[0029]图像预处理模块，将视频帧进行格式转化、画面裁切、尺寸缩放、类别标注等，将所述原始视频片段转化为可供模型训练使用的工人行为数据集；
[0030]动作识别网络模块，将输入的工人行为视频数据集结果神经网络转化为行为深度特征向量，为下一步工人行为识别提供视频中的表观、时序类相关信息；
[0031]目标检测网络模块，用本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向智慧工厂的视频动作识别方法，其特征在于：具体包括如下步骤：S101、工厂视频数据片段生成步骤：利用图像预处理技术对工厂工人作业的视频进行处理和加工，将所有原始录像转换为可利用的工厂工人作业数据片段；S102、工厂工人作业动作数据集生成步骤：将工厂工人作业数据片段打好标签进行归类，将工厂工人作业数据片段制作为可以供动作识别模型学习的数据；S103、工厂作业目标检测数据集生成步骤：将工人作业视频输出成帧，对图片进行采样，对人、工作台、作业工件类目标进行选框标注；S104、工厂工人动作识别模型建模方法步骤：将工厂工人作业动作数据集数据集数据通过帧采样，裁切和数据增强后，转化为模型可接受的标准数据序列输入适用与视频理解的3D
‑
ResNet深度神经网络进行模型的训练；S105、工厂工人位置信息编码网络训练步骤：将工厂作业目标检测数据集经过缩放、归一化类预处理，以及翻转、随机位置、mosaic类数据增强方法后输入目标检测算法进行训练，以使其能提供工人、操作台以及被操作工件的位置信息，然后将位置信息嵌入一个多通道矩阵输入位置编码支路训练；S106、工厂工人行为识别算法的搭建：将训练好的动作识别模型以及位置信息编码模型尾部输出的深度特征拼接起来，使动作识别网络和位置信息编码网络分别形成动作识别支路和位置信息编码支路，组成包含位置信息编码的反应工人行为的深度特征，再输入一层全连接层并且冻结之前的网络参数进行训练，得到完整的工人工人行为识别模型；S107、行为识别输入步骤：将需要识别工人行为的视频输入工厂工人行为识别模型；S108、行为识别输出步骤：基于训练好的工厂工人行为识别模型得到行为预测概率向量，再对比行为类别向量，得到行为识别结果，同时将识别结果通过socket通信方式发送至服务器。2.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法，其特征在于：所述的步骤S101对工厂工人作业的视频进行处理和加工具体包括：对监控视频流数据进行预处理、标注和归类，将所述监控视频流转换为工人动作识别数据集。3.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法，其特征在于：所述的步骤S102中的工厂视频数据片段生成步骤具体如下：先利用图像裁剪技术对视频画幅裁切到工人的工作区域，以排除其他区域的影响，利用视频剪辑技术先对工厂工人作业视频根据动作种类，以动作起始点为开始，动作结束点为终结进行片段剪辑。4.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法，其特征在于：所述的步骤S103的工件目标检测数据的标注规范如下：将工人作业视频输出成帧，对图片进行采样，选出有人操作的工件，并不是画面中所有工件都要标注，只检测正在被工人操作的工件，以避免给神经网络输入无关动作的噪声信息。5.根据权利要求1所述的一种面向智慧工厂的视频动作识别方法，其特征在于：所述的步骤S104中工厂工人行为的识别神经网络由两条神经网络支路构成，其中一条为基于3D
‑
ResNet的经典深度学习动作识别算法，基于3D卷积核构成，可以再时间维度...

【专利技术属性】
技术研发人员：文豪，陆哲明，李浩来，崔家林，
申请(专利权)人：埃夫特智能装备股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人