当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于多尺度语义网络的视听视频解析装置及方法制造方法及图纸

技术编号:33542443 阅读:68 留言:0更新日期:2022-05-21 09:54
本发明专利技术提供一种基于多尺度语义网络的视听视频解析方法及装置,用于对目标音视频中所有单模态和多模态事件进行识别和定位,其特征在于,通过对目标音视频进行了预处理得到的视觉特征和音频特征,然后由基于多尺度语义网络构建的视听视频解析模型对视觉特征和音频特征进行识别和定位从而生成目标音视频的所有单模态事件类别、多模态事件类别以及起始时刻。其中,视听视频解析模型包含跨模态时序卷积注意力网络、自适应语义融合模块、分类模块以及基于注意力的多模态多实例学习池化模块,跨模态时序卷积注意力网络用于捕捉多尺度语义,自适应语义融合模块用于多尺度语义的融合,基于注意力的多模态多实例学习模块用于实现弱监督学习。现弱监督学习。现弱监督学习。

【技术实现步骤摘要】
一种基于多尺度语义网络的视听视频解析装置及方法


[0001]本专利技术属于人工智能
,具体涉及一种基于多尺度语义网络的视听视频解析装置及方法。

技术介绍

[0002]在当今的网络环境下,存在着海量的图片、视频、音频等媒体信息,而在人工智能领域中,如何让机器学习并理解上述媒体信息,一直是广受学者研究的重要课题,如计算机视觉领域致力于研究图片和视频的内容理解,自然语言处理领域试图让机器理解人类语言,而语音检测领域主要对声音进行研究和处理。用基于人工智能的方式对媒体信息进行处理,可以高效的从海量数据中提炼有效的信息内容,并加以分析和利用,从而给人们的日常生活带来更大的便利。
[0003]在上文诸多媒体信息中,视频是一种广泛的媒介形式,它是将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。网络中存在大量的视频可供用户观看,是否能够理解视频的内容,是网络视频供应商进行精准化视频定制、视频推荐的决定性因素。除此之外,视频理解在视频监控,自动驾驶等领域亦有广泛的应用,因此视频理解是一项意义重大而又富有挑战性的研究领本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度语义网络的视听视频解析方法,用于对目标音视频的所有单模态和多模态事件进行识别和定位,其特征在于,包括以下步骤:步骤S1,对所述目标音视频进行预处理获取视觉特征和音频特征;步骤S2,构建基于多尺度语义网络的神经网络模型;步骤S3,采用弱监督训练方法对所述基于多尺度语义网络的神经网络模型进行训练得到视听视频解析模型;步骤S4,将所述视觉特征和所述音频特征输入至所述视听视频解析模型中得到所述目标音视频的所有单模态事件类别、多模态事件类别以及起始时刻,其中,所述基于多尺度语义网络的神经网络模型具有跨模态时序卷积注意力网络、自适应语义融合模块、分类模块以及多模态多实例学习池化层。2.根据权利要求1所述的一种基于多尺度语义网络的视听视频解析方法,其特征在于:其中,所述预处理包括图像预处理,该图像预处理为从所述目标音视频中抽取8个图像帧,对8个所述图像帧进行大小归一化。3.根据权利要求1所述的一种基于多尺度语义网络的视听视频解析方法,其特征在于:其中,所述预处理还包括音频预处理,该音频预处理的过程如下:对所述目标音视频中包含的音频重采样为16kHz的单声道音频,使用25ms的Hann时窗以及10ms的帧移对所述单声道音频进行短时傅里叶变换得到对应的频谱图,并使用64阶的梅尔滤波器组中计算梅尔声谱,使用0.01的偏置对所述梅尔声谱取对数,得到稳定的梅尔声谱,以0.96s的时长进行组帧得到音频序列,每一帧包含64个梅尔频带,不含帧的重叠,对该音频序列进行特征提取得到所述音频特征。4.根据权利要求1所述的一种基于多尺度语义网络的视听视频解析方法,其特征在于:其中,所述跨模态时序卷积注意力网络由若干个级联的时序卷积层和定尺寸跨模态注意力层组成,用于根据输入的所述视觉特征以及所述音频特征生成对应的多尺度语义特征,所述自适应语义融合模块将所述多尺度语义特征的语义信息进行融合得到语义融合结果,所述分类模块对音频模态和视觉模态进行分类和预测生成模态预测结果,所述多模态多实例学习池化层根据所述模态预测结果生成视频级别标签,该视频级别标签用于弱监督训练。5.根据权利要求4所述的一种基于多尺度语义网络的视听视频解析方法,其特征在于:其中,所...

【专利技术属性】
技术研发人员:于家硕冯瑞张玥杰
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1