一种多模态特征融合的视频时序事件检测方法及系统技术方案

技术编号：26792394 阅读：28 留言：0更新日期：2020-12-22 17:08

本发明专利技术实施例公开了一种多模态特征融合的视频时序事件检测方法及系统，将视频的光流特征、视频流特征以及音频特征进行融合获得多模态联合特征，使用多模态联合特征进行视频时序事件的检测及视频事件类别的分类。将多个模态的信息一起映射到一个统一的多模态向量空间，利用多模态之间的互补性，剔除了模型间的冗余，从而学习更好的特征，利用该特征进行视频时序事件的检测，可帮助大幅缩短人工审核的时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态特征融合的视频时序事件检测方法及系统
本专利技术实施例涉及计算机视觉
，具体涉及一种多模态特征融合的视频时序事件检测方法及系统。
技术介绍
视频事件检测成为近年来计算机视觉领域的研究热点和难点，随着计算机技术、存储技术和网络技术的高速发展以及各种数码设备和移动终端设备的不断更新，视频数据量以爆炸式速度不断增长。当前的技术的瓶颈以及面临的挑战主要包括了背景、光照、视角、运动速度、运动轨迹等多样性干扰。而当前学术领域主要是对简单的具体事件的检测识别，比如说简单的动作识别、拍打篮球、挥动手势等简单的场景，不符合生活或者工业的复杂场景。而通过人工浏览审核视频方式去识别视频中包含的事件，则需要耗费大量的时间和精力。
技术实现思路
为此，本专利技术实施例提供一种多模态特征融合的视频时序事件检测方法及系统，以解决现有的人工浏览审核视频方式去识别视频中包含的事件，需要耗费大量的时间和精力的问题。为了实现上述目的，本专利技术实施例提供如下技术方案：根据本专利技术实施例的第一方面，提出了一种多...

【技术保护点】
1.一种多模态特征融合的视频时序事件检测方法，其特征在于，所述方法包括：/n对原始视频文件进行光流信息的提取获得光流图，根据所述光流图获取视频的光流特征；/n对原始视频文件进行视频流特征提取获取视频的视频流特征；/n对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征；/n将所述光流特征、视频流特征以及音频特征进行融合获得多模态联合特征；/n使用所述多模态联合特征进行视频时序事件的检测及视频事件类别的分类。/n

【技术特征摘要】
1.一种多模态特征融合的视频时序事件检测方法，其特征在于，所述方法包括：
对原始视频文件进行光流信息的提取获得光流图，根据所述光流图获取视频的光流特征；
对原始视频文件进行视频流特征提取获取视频的视频流特征；
对原始视频文件的原始音频数据进行音频特征提取获取视频的音频特征；
将所述光流特征、视频流特征以及音频特征进行融合获得多模态联合特征；
使用所述多模态联合特征进行视频时序事件的检测及视频事件类别的分类。

2.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法，其特征在于，所述方法还包括：
对原始视频文件进行预处理，包括对视频进行抽帧以及对长视频进行段落切分，对长视频进行段落切分具体包括通过图像直方图进行动作或事件段落切分。

3.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法，其特征在于，所述方法还包括：
根据所述光流图通过光流模型获取视频的光流特征。

4.根据权利要求1所述的一种多模态特征融合的视频时序事件检测方法，其特征在于，所述方法还包括：
通过视频检测模型获取视频的视频流特征，所述视频检测模型包括I3D模型、C3D模型。

5.根据权利要求1所述的一种多模态特征融合的视频时序...

【专利技术属性】
技术研发人员：宁宇鹏，
申请(专利权)人：北京影谱科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人