主体与行为偏离可控的监控视频语言数据集自动生成方法技术

技术编号:46426145 阅读:5 留言:0更新日期:2025-09-19 20:33
主体与行为偏离可控的监控视频语言数据集自动生成方法属于计算机视觉领域。本发明专利技术基于深度学习技术与数学中的交叉验证方法,研究了一种主体与行为偏离可控的监控视频语言数据集自动生成方法。首先使用目标追踪模块来构建增强的监控视频字幕模型,用于标注生成监控视频的描述文本,控制描述文本中的主体偏离程度。随后使用基于迭代偏离交叉验证的数据过滤模型对描述文本进行过滤,控制文本描述中的行为偏离程度,最终可获取主体与偏离可控的视频语言数据集。本发明专利技术所生产数据集具有已知的主体与行为偏离程度,因此可以为多模态监控视频语言理解模型等任务的训练提供有效帮助。

【技术实现步骤摘要】

本专利技术基于深度学习技术与数学中的交叉验证方法,研究了一种主体与行为偏离可控的监控视频语言数据集自动生成方法。首先使用目标追踪模块来构建增强的监控视频字幕模型,用于标注生成监控视频的描述文本,控制描述文本中的主体偏离程度。随后使用基于迭代偏离交叉验证的数据过滤模型对描述文本进行过滤,控制文本描述中的行为偏离程度,最终可以获取主体与偏离可控的视频语言数据集。本专利技术属于计算机视觉领域,具体涉及深度学习,目标检测、交叉验证等技术。


技术介绍

1、智能监控在公共安全领域中起着至关重要的作用,已经成为了关乎社会生活治安稳定、保障人民生命财产安全的重要基石。多模态视频语言理解技术关注监控视频和语言模态间的理解,可以自动理解监控视频的内容并生成详细的文本描述,从而对监控领域中的视频问答、视频字幕生成、密集视频字幕生成等视频语言理解应用场景形成有力支撑,并能够明显提升实际场景下调查分析监控视频的效率,并为新一代智能安防建设提供重要技术支持。

2、然而,在数据层面,研究多模态视频语言理解技术需要依赖具有良好文本描述的监控视频数据集。但是目前常见的公开视频文本文档来自技高网...

【技术保护点】

1.主体与行为偏离可控的监控视频语言数据集自动生成方法,其特征在于:

2.根据权利要求1所述的方法,其特征在于:使用目标追踪模块来构建增强的监控视频字幕模型,模型采用一种融合全局与局部特征的视频编码策略,首先对输入的原始视频进行固定采样,提取出若干视频帧片段,并通过视觉编码器提取全局视频特征;同时,采用预训练好的目标检测器对每个视频帧中的对象进行识别和定位,再通过目标筛选器追踪并分析检测对象在视频帧中的运动轨迹,从而进一步筛选出在连续帧中发生变化的对象,并将该对象检测框外其他部分遮盖掉,来得到只含有追踪目标的图像,再输入到视觉编码器获得局部的视频特征;最后,将视觉编码器输出的...

【技术特征摘要】

1.主体与行为偏离可控的监控视频语言数据集自动生成方法,其特征在于:

2.根据权利要求1所述的方法,其特征在于:使用目标追踪模块来构建增强的监控视频字幕模型,模型采用一种融合全局与局部特征的视频编码策略,首先对输入的原始视频进行固定采样,提取出若干视频帧片段,并通过视觉编码器提取全局视频特征;同时,采用预训练好的目标检测器对每个视频帧中的对象进行识别和定位,再通过目标筛选器追踪并分析检测对象在视频帧中的运动轨迹,从而进一步筛选出在连续帧中发生变化的对象,并将该对象检测框外其他部分遮盖掉,来得到只含有追踪目标的图像,再输入到视觉编码器获得局部的视频特征;最后,将视觉编码器输出的全局视频特征和局部视频特征相融合,和文本特征一起输入到多模态解码器中,进行文本输出的预测,生成主体描述偏离度低的文本标注;

3.根据权利要求1所述的方法,其特征在于:描述文本用于描述监控视频中发生事件的文本。

4.根据权利要求1所述的方法,其特征在于:所述描述文本中的主体偏离程度,针对已有的视频语言数据集,将其中针对相同视频的机器自动标注的主体词汇和人工标注的主体词汇成对表示,随后将这些词汇输入到bert中提取出特征向量,并进行基于语义分布对齐的主体偏离度度量方法计算出偏离度,其数值记为ε1;具体地,

5.根据权利要求1所述的方法,其特征在于:交叉验证算法在每一次迭代中,首先需要初始化用于判断行为描述是否准...

【专利技术属性】
技术研发人员:袁彤彤刘波
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1