一种视频目标状态的识别模型训练方法及识别方法技术

技术编号：32633734 阅读：17 留言：0更新日期：2022-03-12 18:08

本发明专利技术公开了一种视频目标状态的识别模型训练方法及识别方法，其模型训练方法包括：将图像帧输入特征提取模块以获取高层特征；通过空间推理模块对高层特征进行上采样并与显著性标签比对训练，计算第一损失函数并通过训练使第一损失函数收敛至预设程度；将高层特征高层特征依次输入时间推理模块中的ConvLSTM网络、全连接层和Softmax层后获得当前目标的预测状态并与状态标签比对训练，计算第二损失函数并通过训练使第二损失函数收敛至预设程度，获得视频目标状态识别模型。利用该识别模型能够实现视频图像中目标状态的识别。通过时间推理和空间推理相结合的方法具有较高的状态识别精度，实现了自动化的视频图像序列的特征事件检测。征事件检测。征事件检测。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频目标状态的识别模型训练方法及识别方法

[0001]本专利技术属于视频图像数据处理
，更具体地，涉及一种视频目标状态的识别模型训练方法及识别方法。

技术介绍

[0002]图像序列是对目标在连续一段时间内所做动作及状态的记录，在时间、空间信息上具备连贯性，且目标在不同状态下具有不同的时空特征。利用图像的这一特点，采用人工智能技术，构建图像深度学习模型，对图像序列的关键帧状态进行检测识别，一方面有利于图像数据的自动化处理和分析；另一方面也可推广应用到各种准实时应用中，以实现快速自动的目标状态掌握和评估。
[0003]然而，现在视频关键帧状态识别主要是对包含人的视频进行动作状态识别，对物体的状态识别则较少研究。在包含人的视频中，常使用人体姿态检测模型去抓取人的运动信息，比如在行人步态识别等应用中，其行人目标占据了几乎整个图像画面。但是在对物体关键帧状态识别时，不能采用一些关节点信息作为辅助，而且某些视频图像中目标只占据图像很小比例的区域，对于目标占比较小、背景区域大的图像序列的关键帧状态检测的精度不高。

技术实现思路

[0004]针对现有技术的以上缺陷或改进需求，本专利技术提供了一种视频目标状态的识别模型训练方法及识别方法，其目的在于提高视频目标状态识别精度。
[0005]为实现上述目的，按照本专利技术的一个方面，提供了一种视频目标状态的识别模型训练方法，其包括：
[0006]将训练集的连续图像帧输入特征提取模块以获取高层特征；
[0007]通过空间推理模块对所述...

【技术保护点】

【技术特征摘要】
1.一种视频目标状态的识别模型训练方法，其特征在于，包括：将训练集的连续图像帧输入特征提取模块以获取高层特征；通过空间推理模块对所述高层特征进行上采样并与显著性标签比对训练，计算第一损失函数并通过训练使所述第一损失函数收敛至预设程度；将所述高层特征输入时间推理模块，所述时间推理模块包括ConvLSTM网络、全连接层和Softmax层，将所述高层特征依次输入所述ConvLSTM网络、全连接层和Softmax层后获得当前目标的预测状态并与状态标签比对训练，计算第二损失函数并通过训练使第二损失函数收敛至预设程度，获得视频目标状态识别模型。2.如权利要求1所述的视频目标状态的识别模型训练方法，其特征在于，输入特征提取模块的图像帧为经过预处理后的图像帧，所述预处理的过程为：将bmp格式文件的位图数据实体保存为16位无符号整型数x；利用第一转换公式将所述16位无符号整形数x进行归一化处理，得到归一化后的整型数x'，其中，max(x)表示所述16位无符号整型数x的最大值；将所述归一化后的整型数x'转换为8位无符号整型数y，并利用第二转换公式对所述8位无符号整型数y进行非线性转换，并将转换结果z保存为png格式文件。3.如权利要求1所述的视频目标状态的识别模型训练方法，其特征在于，所述特征提取模块包括VGG
‑
16网络的5个卷积层，输入的图像帧经过VGG
‑
16网络的5个卷积层后，由VGG
‑
16的第5层输出两路高层特征。4.如权利要求1所述的视频目标状态的识别模型训练方法，其特征在于，所述空间推理...

【专利技术属性】
技术研发人员：贾涛，陈加忠，钟坚，金毅，董圆，张衍滨，刘洋，刘小朋，崔铁成，李玲，马蕾，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人