一种基于多维语义信息的视频关键数据提取方法技术

技术编号：39320737 阅读：8 留言：0更新日期：2023-11-12 16:01

本发明专利技术公开了一种基于多维语义信息的视频关键数据提取方法，首先对输入视频进行时域采样和预处理；再基于高斯混合模型构建视频背景；然后使用单阶段目标检测网络在非背景区域提取并筛选视频帧中的关键目标；使用目标跟踪算法，对关键目标进行跟踪，得到目标边界框序列；计算目标运动信息，计算每一个跟踪边界框内图像块的质量分数，并选择质量分数最大的图像块作为典型目标图像；使用目标细粒度属性提取模型，提取目标的颜色、型号子类信息；使用基于Transformer的视频描述生成模型，生成关键目标的文本摘要；最终构建关键目标的多维表征结构，存储视频背景和所有目标多维表征作为关键数据。本发明专利技术可以大幅度减少所需要的存储空间，提高了数据信息密度。提高了数据信息密度。提高了数据信息密度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多维语义信息的视频关键数据提取方法

[0001]本专利技术属于视频处理
，具体涉及一种视频关键数据提取方法。

技术介绍

[0002]近年来，随着固定传感器、智能手机、无人机航拍等视频采集方式的快速发展和视频分享网站的广泛应用，视频数量正在以爆炸式速度增长。视频以直观、生动的方式记录了社会、生活变化过程，因此对视频进行处理分析，提取关键数据具有重要意义，在智慧安防、刑事侦破等众多民生、经济领域具有重大的应用价值。
[0003]然而，爆炸式增长的视频对存储、传输、处理提出了更高的要求。例如，受限于存储设备的容量，24小时不间断记录的监控视频一般只能存储一周左右，甚至于更少的时间。在面对异常情况，大都以人工回放观看的方式，对视频进行检索，判断是否出现相关人、物。这种方式不仅费时费力，而且也容易出现漏检、错过有效时间等问题。因此，如何智能提取视频关键数据，大幅度减少所需的存储空间，提高检索效率，在诸多方面具有重要意义。
[0004]视频关键数据智能提取旨在对视频进行语义分析的基础上，提取视频中出现的关键人、物体，从而删除无关的数据，提高数据信息密度。其主要难点是关键目标提取发现、多维信息抽取与表征。视频中含有大量静态和动态目标，加上噪声干扰，如何从中提取目标是一个关键。另一方面，在确定关键目标后，如何挖掘多维信息，并构建合适的表征，提高表征准确度和用户检索效率是另一个难点。大部分现有视频关键数据提取方法聚焦于关键帧提取，尚未关注到目标级别；或者聚焦于目标检测、目标跟踪等单个模块，缺乏系统方法。<...

【技术保护点】

【技术特征摘要】
1.一种基于多维语义信息的视频关键数据提取方法，其特征在于，包括如下步骤：步骤1：对输入视频，进行时域采样，将视频帧率降为2FPS，并进行白平衡、色彩校正预处理操作；步骤2：对步骤1得到的视频帧序列，基于高斯混合模型构建视频背景；步骤3：基于步骤2得到的视频背景，使用单阶段目标检测网络在非背景区域提取并筛选视频帧中的关键目标；使用目标跟踪算法，对关键目标进行跟踪，得到目标边界框序列；步骤4：根据步骤3得到的目标边界框序列，计算目标运动信息，包括目标出现时间、消失时间、时空运动坐标轨迹；步骤5：依据步骤3得到目标边界框序列，计算每一个边界框内的图像块的质量分数，并选择一个质量分数最大的图像块作为典型目标图像；步骤6：使用目标细粒度属性提取模型，提取目标的颜色、型号子类信息；步骤7：使用基于Transformer的视频描述生成模型，生成关键目标的文本摘要；步骤8：基于步骤3到步骤7的结果，构建关键目标的多维表征结构，最终存储视频背景和所有目标多维表征作为关键数据。2.根据权利要求1所述的一种基于多维语义信息的视频关键数据提取方法，其特征在于，所述步骤2具体为：步骤2
‑
1：高斯混合模型由K个单高斯模型组成，通过加权求和用于描述一个像素点在不同时刻的亮度分布情况；基于高斯混合模型的视频背景抽取过程为：步骤2
‑
2：高斯混合模型初始化：将K个高斯分布均值随机初始化，方差设为9，权值赋为1/K；步骤2
‑
3：单次取一帧图像，将图像中每个像素值与各单高斯模型的均值进行比较，若偏差小于2.5倍方差，则更新匹配的高斯模型均值μ，标准差σ和权重w；若都不满足，则舍去权重最小的模型，并新建立一个高斯模型，其均值为当前该像素值，标准差为9，权重为最小权重；步骤2
‑
4：将各高斯模型按照w
i
σ
i
数值进行降序排列；按照下式选择前B个高斯分布作为背景模式：其中，w
i
为第i个高斯模型的权重，参数T表示背景所占的比例；步骤2
‑
5：逐个像素判断像素值与所选的B个高斯分布是否匹配，若匹配则该像素为背景点，否则为前景；步骤2
‑
6：对所有帧进行步骤2
‑
3到步骤2
‑
5的循环，得到当前序列的背景序列，求平均得到该场景的背景。3.根据权利要求2所述的一种基于多维语义信息的视频关键数据提取方法，其特征在于，所述K＝5，T＝0.6。4.根据权利要求2所述的一种基于多维语义信息的视频关键数据提取方法，其特征在于，所述步骤3具体为：步骤3
‑
1：使用单阶段目标检测模型yolo v8进行目标检测，输出目标的检测框；使用在COCO数据集上的预训练模型参数，以得到最优的目标检测模型；
步骤3
‑
2：采用非极大值抑制算法，对上一步得到检测框进行筛选，避免对同一目标产生多个重叠的检测框；非极大值抑制中，首先选择目标检测模型预测分数最大的目标检测框...

【专利技术属性】
技术研发人员：张艳宁，梁国强，王冀，秦川，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人