一种基于多维语义信息的视频关键数据提取方法技术

技术编号:39320737 阅读:8 留言:0更新日期:2023-11-12 16:01
本发明专利技术公开了一种基于多维语义信息的视频关键数据提取方法,首先对输入视频进行时域采样和预处理;再基于高斯混合模型构建视频背景;然后使用单阶段目标检测网络在非背景区域提取并筛选视频帧中的关键目标;使用目标跟踪算法,对关键目标进行跟踪,得到目标边界框序列;计算目标运动信息,计算每一个跟踪边界框内图像块的质量分数,并选择质量分数最大的图像块作为典型目标图像;使用目标细粒度属性提取模型,提取目标的颜色、型号子类信息;使用基于Transformer的视频描述生成模型,生成关键目标的文本摘要;最终构建关键目标的多维表征结构,存储视频背景和所有目标多维表征作为关键数据。本发明专利技术可以大幅度减少所需要的存储空间,提高了数据信息密度。提高了数据信息密度。提高了数据信息密度。

【技术实现步骤摘要】
一种基于多维语义信息的视频关键数据提取方法


[0001]本专利技术属于视频处理
,具体涉及一种视频关键数据提取方法。

技术介绍

[0002]近年来,随着固定传感器、智能手机、无人机航拍等视频采集方式的快速发展和视频分享网站的广泛应用,视频数量正在以爆炸式速度增长。视频以直观、生动的方式记录了社会、生活变化过程,因此对视频进行处理分析,提取关键数据具有重要意义,在智慧安防、刑事侦破等众多民生、经济领域具有重大的应用价值。
[0003]然而,爆炸式增长的视频对存储、传输、处理提出了更高的要求。例如,受限于存储设备的容量,24小时不间断记录的监控视频一般只能存储一周左右,甚至于更少的时间。在面对异常情况,大都以人工回放观看的方式,对视频进行检索,判断是否出现相关人、物。这种方式不仅费时费力,而且也容易出现漏检、错过有效时间等问题。因此,如何智能提取视频关键数据,大幅度减少所需的存储空间,提高检索效率,在诸多方面具有重要意义。
[0004]视频关键数据智能提取旨在对视频进行语义分析的基础上,提取视频中出现的关键人、物体,从而删除无关的数据,提高数据信息密度。其主要难点是关键目标提取发现、多维信息抽取与表征。视频中含有大量静态和动态目标,加上噪声干扰,如何从中提取目标是一个关键。另一方面,在确定关键目标后,如何挖掘多维信息,并构建合适的表征,提高表征准确度和用户检索效率是另一个难点。大部分现有视频关键数据提取方法聚焦于关键帧提取,尚未关注到目标级别;或者聚焦于目标检测、目标跟踪等单个模块,缺乏系统方法。<br/>
技术实现思路

[0005]为了克服现有技术的不足,本专利技术提供了一种基于多维语义信息的视频关键数据提取方法,首先对输入视频进行时域采样,进行预处理;再基于高斯混合模型构建视频背景;然后使用单阶段目标检测网络在非背景区域提取并筛选视频帧中的关键目标;使用目标跟踪算法,对关键目标进行跟踪,得到目标边界框序列;计算目标运动信息,计算每一个跟踪边界框内图像块的质量分数,并选择一个质量分数最大的图像块作为典型目标图像;使用目标细粒度属性提取模型,提取目标的颜色、型号子类信息;使用基于Transformer的视频描述生成模型,生成关键目标的文本摘要;最终构建关键目标的多维表征结构,存储视频背景和所有目标多维表征作为关键数据。本专利技术可以大幅度减少所需要的存储空间,提高了数据信息密度。
[0006]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0007]步骤1:对输入视频,进行时域采样,将视频帧率降为2FPS,并进行白平衡、色彩校正预处理操作;
[0008]步骤2:对步骤1得到的视频帧序列,基于高斯混合模型构建视频背景;
[0009]步骤3:基于步骤2得到的视频背景,使用单阶段目标检测网络在非背景区域提取并筛选视频帧中的关键目标;使用目标跟踪算法,对关键目标进行跟踪,得到目标边界框序
列;
[0010]步骤4:根据步骤3得到的目标边界框序列,计算目标运动信息,包括目标出现时间、消失时间、时空运动坐标轨迹;
[0011]步骤5:依据步骤3得到目标边界框序列,计算每一个边界框内的图像块的质量分数,并选择一个质量分数最大的图像块作为典型目标图像;
[0012]步骤6:使用目标细粒度属性提取模型,提取目标的颜色、型号子类信息;
[0013]步骤7:使用基于Transformer的视频描述生成模型,生成关键目标的文本摘要;
[0014]步骤8:基于步骤3到步骤7的结果,构建关键目标的多维表征结构,最终存储视频背景和所有目标多维表征作为关键数据。
[0015]优选的,所述步骤2具体为:
[0016]步骤2

1:高斯混合模型由K个单高斯模型组成,通过加权求和用于描述一个像素点在不同时刻的亮度分布情况;基于高斯混合模型的视频背景抽取过程为:
[0017]步骤2

2:高斯混合模型初始化:将K个高斯分布均值随机初始化,方差设为9,权值赋为1/K;
[0018]步骤2

3:单次取一帧图像,将图像中每个像素值与各单高斯模型的均值进行比较,若偏差小于2.5倍方差,则更新匹配的高斯模型均值μ,标准差σ和权重w;若都不满足,则舍去权重最小的模型,并新建立一个高斯模型,其均值为当前该像素值,标准差为9,权重为最小权重;
[0019]步骤2

4:将各高斯模型按照w
i

i
数值进行降序排列;按照下式选择前B个高斯分布作为背景模式:
[0020][0021]其中,w
i
为第i个高斯模型的权重,参数T表示背景所占的比例;
[0022]步骤2

5:逐个像素判断像素值与所选的B个高斯分布是否匹配,若匹配则该像素为背景点,否则为前景;
[0023]步骤2

6:对所有帧进行步骤2

3到步骤2

5的循环,得到当前序列的背景序列,求平均得到该场景的背景。
[0024]优选地,所述K=5,T=0.6。
[0025]优选地,所述步骤3具体为:
[0026]步骤3

1:使用单阶段目标检测模型yolo v8进行目标检测,输出目标的检测框;使用在COCO数据集上的预训练模型参数,以得到最优的目标检测模型;
[0027]步骤3

2:采用非极大值抑制算法,对上一步得到检测框进行筛选,避免对同一目标产生多个重叠的检测框;非极大值抑制中,首先选择目标检测模型预测分数最大的目标检测框,然后判断其他候选框与已选择目标框的重叠度,若大于阈值T=0.5,则删除得分较小的目标框;然后依次从剩余的检测框集合中选择预测分数最大的候选框,直至遍历完所有目标框;
[0028]步骤3

3:采用Sort目标跟踪算法生成目标序列图像;其具体流程是,对t

1时刻的检测框,基于线性卡尔曼滤波器预测在t帧中的位置;然后将位置预测结果与目标检测框通过IoU值进行匈牙利匹配,从而获得t时刻的跟踪框。
[0029]优选地,所述图像质量分数采用如下方式进行计算:
[0030]步骤5

1:将图像送入在ImageNet上预训练的Resnet

50的神经网络模型,将倒数第二层的输出作为图像语义特征向量;
[0031]步骤5

2:将图像转化为灰度图,然后计算表示图像信息量的图像熵:
[0032][0033]其中p(n)表示像素灰度值为n的概率;
[0034]步骤5

3:将所得到的语义特征向量和图像熵拼接为一个向量,然后送入一个具有2个隐层的MLP网络,预测图像的质量分数;该MLP网络的隐层维度分别是64和32,并使用图像质量评价数据集LIVE训练该网络的参数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多维语义信息的视频关键数据提取方法,其特征在于,包括如下步骤:步骤1:对输入视频,进行时域采样,将视频帧率降为2FPS,并进行白平衡、色彩校正预处理操作;步骤2:对步骤1得到的视频帧序列,基于高斯混合模型构建视频背景;步骤3:基于步骤2得到的视频背景,使用单阶段目标检测网络在非背景区域提取并筛选视频帧中的关键目标;使用目标跟踪算法,对关键目标进行跟踪,得到目标边界框序列;步骤4:根据步骤3得到的目标边界框序列,计算目标运动信息,包括目标出现时间、消失时间、时空运动坐标轨迹;步骤5:依据步骤3得到目标边界框序列,计算每一个边界框内的图像块的质量分数,并选择一个质量分数最大的图像块作为典型目标图像;步骤6:使用目标细粒度属性提取模型,提取目标的颜色、型号子类信息;步骤7:使用基于Transformer的视频描述生成模型,生成关键目标的文本摘要;步骤8:基于步骤3到步骤7的结果,构建关键目标的多维表征结构,最终存储视频背景和所有目标多维表征作为关键数据。2.根据权利要求1所述的一种基于多维语义信息的视频关键数据提取方法,其特征在于,所述步骤2具体为:步骤2

1:高斯混合模型由K个单高斯模型组成,通过加权求和用于描述一个像素点在不同时刻的亮度分布情况;基于高斯混合模型的视频背景抽取过程为:步骤2

2:高斯混合模型初始化:将K个高斯分布均值随机初始化,方差设为9,权值赋为1/K;步骤2

3:单次取一帧图像,将图像中每个像素值与各单高斯模型的均值进行比较,若偏差小于2.5倍方差,则更新匹配的高斯模型均值μ,标准差σ和权重w;若都不满足,则舍去权重最小的模型,并新建立一个高斯模型,其均值为当前该像素值,标准差为9,权重为最小权重;步骤2

4:将各高斯模型按照w
i
σ
i
数值进行降序排列;按照下式选择前B个高斯分布作为背景模式:其中,w
i
为第i个高斯模型的权重,参数T表示背景所占的比例;步骤2

5:逐个像素判断像素值与所选的B个高斯分布是否匹配,若匹配则该像素为背景点,否则为前景;步骤2

6:对所有帧进行步骤2

3到步骤2

5的循环,得到当前序列的背景序列,求平均得到该场景的背景。3.根据权利要求2所述的一种基于多维语义信息的视频关键数据提取方法,其特征在于,所述K=5,T=0.6。4.根据权利要求2所述的一种基于多维语义信息的视频关键数据提取方法,其特征在于,所述步骤3具体为:步骤3

1:使用单阶段目标检测模型yolo v8进行目标检测,输出目标的检测框;使用在COCO数据集上的预训练模型参数,以得到最优的目标检测模型;
步骤3

2:采用非极大值抑制算法,对上一步得到检测框进行筛选,避免对同一目标产生多个重叠的检测框;非极大值抑制中,首先选择目标检测模型预测分数最大的目标检测框...

【专利技术属性】
技术研发人员:张艳宁梁国强王冀秦川
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1