一种视频目标状态的识别模型训练方法及识别方法技术

技术编号:32633734 阅读:17 留言:0更新日期:2022-03-12 18:08
本发明专利技术公开了一种视频目标状态的识别模型训练方法及识别方法,其模型训练方法包括:将图像帧输入特征提取模块以获取高层特征;通过空间推理模块对高层特征进行上采样并与显著性标签比对训练,计算第一损失函数并通过训练使第一损失函数收敛至预设程度;将高层特征高层特征依次输入时间推理模块中的ConvLSTM网络、全连接层和Softmax层后获得当前目标的预测状态并与状态标签比对训练,计算第二损失函数并通过训练使第二损失函数收敛至预设程度,获得视频目标状态识别模型。利用该识别模型能够实现视频图像中目标状态的识别。通过时间推理和空间推理相结合的方法具有较高的状态识别精度,实现了自动化的视频图像序列的特征事件检测。征事件检测。征事件检测。

【技术实现步骤摘要】
一种视频目标状态的识别模型训练方法及识别方法


[0001]本专利技术属于视频图像数据处理
,更具体地,涉及一种视频目标状态的识别模型训练方法及识别方法。

技术介绍

[0002]图像序列是对目标在连续一段时间内所做动作及状态的记录,在时间、空间信息上具备连贯性,且目标在不同状态下具有不同的时空特征。利用图像的这一特点,采用人工智能技术,构建图像深度学习模型,对图像序列的关键帧状态进行检测识别,一方面有利于图像数据的自动化处理和分析;另一方面也可推广应用到各种准实时应用中,以实现快速自动的目标状态掌握和评估。
[0003]然而,现在视频关键帧状态识别主要是对包含人的视频进行动作状态识别,对物体的状态识别则较少研究。在包含人的视频中,常使用人体姿态检测模型去抓取人的运动信息,比如在行人步态识别等应用中,其行人目标占据了几乎整个图像画面。但是在对物体关键帧状态识别时,不能采用一些关节点信息作为辅助,而且某些视频图像中目标只占据图像很小比例的区域,对于目标占比较小、背景区域大的图像序列的关键帧状态检测的精度不高。

技术实现思路

[0004]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种视频目标状态的识别模型训练方法及识别方法,其目的在于提高视频目标状态识别精度。
[0005]为实现上述目的,按照本专利技术的一个方面,提供了一种视频目标状态的识别模型训练方法,其包括:
[0006]将训练集的连续图像帧输入特征提取模块以获取高层特征;
[0007]通过空间推理模块对所述高层特征进行上采样并与显著性标签比对训练,计算第一损失函数并通过训练使所述第一损失函数收敛至预设程度;
[0008]将所述高层特征输入时间推理模块,所述时间推理模块包括ConvLSTM网络、全连接层和Softmax层,将所述高层特征依次输入所述ConvLSTM网络、全连接层和Softmax层后获得当前目标的预测状态并与状态标签比对训练,计算第二损失函数并通过训练使第二损失函数收敛至预设程度,获得视频目标状态识别模型。
[0009]优选地,输入特征提取模块的图像帧为经过预处理后的图像帧,所述预处理的过程为:
[0010]将bmp格式文件的位图数据实体保存为16位无符号整型数x;
[0011]利用第一转换公式将所述16位无符号整形数x进行归一化处理,得到归一化后的整型数x',其中,max(x)表示所述16位无符号整型数x的最大值;
[0012]将所述归一化后的整型数x'转换为8位无符号整型数y,并利用第二转换公式
对所述8位无符号整型数y进行非线性转换,并将转换结果z保存为png格式文件。
[0013]优选地,所述特征提取模块包括VGG

16网络的5个卷积层,输入的图像帧经过VGG

16网络的5个卷积层后,由VGG

16的第5层输出两路高层特征。
[0014]优选地,所述空间推理模块包括4个反卷积层和1个卷积层,输入空间推理模块的所述高层特征先经过4个反卷积层进行上采样,再经过1个卷积层得到一张显著像素图后输出,将输出图与显著性标签进行比对训练。
[0015]优选地,所述空间推理模块还包括Sigmoid激活层,在经过1个卷积层得到一张显著像素图后,还包括对所述显著像素图做Sigmoid激活后输出。
[0016]优选地,所述ConvLSTM网络包括记忆们、遗忘门和输出门。
[0017]优选地,经所述Softmax层后返回各个状态的概率,取最大概率的状态作为当前帧的状态。
[0018]按照本专利技术的另一方面,提供了一种视频目标状态的识别方法,其包括:
[0019]获取视频目标状态的识别模型,所述识别模型为根据上述任一项所述的视频目标状态的识别模型训练方法所得;
[0020]将图像帧输入所述识别模型中,经所述识别模型的特征提取模块和时间推理模块后输出状态识别结果。
[0021]优选地,在将图像帧输入所述识别模型之前,还包括对图像帧进行预处理,所述预处理过程为:
[0022]将bmp格式文件的位图数据实体保存为16位无符号整型数x;
[0023]利用第一转换公式将所述16位无符号整形数x进行归一化处理,得到归一化后的整型数x',其中,max(x)表示所述16位无符号整型数x的最大值;
[0024]将所述归一化后的整型数x'转换为8位无符号整型数y,并利用第二转换公式对所述8位无符号整型数y进行非线性转换,并将转换结果z保存为png格式文件。
[0025]总体而言,本专利技术充分利用目标在不同状态下具有的不同空间特征,构建空间推理模块,空间推理模块能够有效扩大目标区域并加强网络对目标区域的学习效果,使代表图像背景部分的网络参数更快收敛。同时使用ConvLSTM来记忆历史图片帧的时间与空间信息,对一段时间内的视频帧特征进行存储与记忆,构建时间推理模块。时间推理和空间推理相结合的方法具有较高的状态识别精度,实现了自动化的视频图像序列的特征事件检测。
附图说明
[0026]图1是本申请一实施例中模型训练时的系统网络架构图;
[0027]图2是本申请一实施例中进行模型训练的步骤流程图;
[0028]图3是本申请一实施例中空间推理模块对特征图的处理过程图;
[0029]图4是本申请一实施例中时间推理模块对特征图的处理过程图;
[0030]图5是本申请一实施例中视频目标状态的识别方法的过程图。
具体实施方式
[0031]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0032]如图1为本申请一实施例中进行模型训练时的系统网络架构图,该系统网络架构图主要包括特征提取模块、空间推理模块和时间推理模块。如图2所示,本申请的模型训练方法基于该模型进行如下训练:
[0033]步骤S100:将训练集的连续图像帧输入特征提取模块以获取高层特征。
[0034]其中,特征提取模块可以专注于图像特征的高层表达。由于背景特征具有类似的表达,而且背景在图像画面中占的比例较大,因此,用于高层语义表达的模块非常容易达到一个稳定的状态。一旦稳定,高层表达模块只会随着目标状态的不同,做少量的权重更新,从而避免了高层语义表达模块与推理模块争着去调整网络的权重,从而保证了模型集中精力做状态分类的能力。
[0035]在准备训练集时,由于需要进行两次训练,分别为图像显著性提取的训练和状态识别的训练,因此训练集中的图像需具有显著性标签以及状态标签。
[0036]在一实施例中,当原始图像为bmp格式时,在和输入特征提取模块之前,还需要对原始图像进行预处理,以实现图像格式的转换。具体的,该预处理过程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频目标状态的识别模型训练方法,其特征在于,包括:将训练集的连续图像帧输入特征提取模块以获取高层特征;通过空间推理模块对所述高层特征进行上采样并与显著性标签比对训练,计算第一损失函数并通过训练使所述第一损失函数收敛至预设程度;将所述高层特征输入时间推理模块,所述时间推理模块包括ConvLSTM网络、全连接层和Softmax层,将所述高层特征依次输入所述ConvLSTM网络、全连接层和Softmax层后获得当前目标的预测状态并与状态标签比对训练,计算第二损失函数并通过训练使第二损失函数收敛至预设程度,获得视频目标状态识别模型。2.如权利要求1所述的视频目标状态的识别模型训练方法,其特征在于,输入特征提取模块的图像帧为经过预处理后的图像帧,所述预处理的过程为:将bmp格式文件的位图数据实体保存为16位无符号整型数x;利用第一转换公式将所述16位无符号整形数x进行归一化处理,得到归一化后的整型数x',其中,max(x)表示所述16位无符号整型数x的最大值;将所述归一化后的整型数x'转换为8位无符号整型数y,并利用第二转换公式对所述8位无符号整型数y进行非线性转换,并将转换结果z保存为png格式文件。3.如权利要求1所述的视频目标状态的识别模型训练方法,其特征在于,所述特征提取模块包括VGG

16网络的5个卷积层,输入的图像帧经过VGG

16网络的5个卷积层后,由VGG

16的第5层输出两路高层特征。4.如权利要求1所述的视频目标状态的识别模型训练方法,其特征在于,所述空间推理...

【专利技术属性】
技术研发人员:贾涛陈加忠钟坚金毅董圆张衍滨刘洋刘小朋崔铁成李玲马蕾
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1