当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于视听融合效应的音视频跨模态搜索方法技术

技术编号:38876096 阅读:16 留言:0更新日期:2023-09-22 14:09
一种基于视听融合效应的音视频跨模态搜索方法,对于用户给出的音频或视频,本发明专利技术可以通过训练好的人工智能网络,进行跨模态的搜索,即通过音频搜索视频或通过视频搜索音频。对于输入的其进行情感特征的提取,并以特征向量的余弦距离在素材库中进行搜索。本发明专利技术可以适配目前常见音视频格式的要求,内容上视频适用场景包括电影、纪录片、广告片等,音频适用场景包括古典乐、流行乐、爵士乐等。爵士乐等。爵士乐等。

【技术实现步骤摘要】
一种基于视听融合效应的音视频跨模态搜索方法


[0001]本专利技术属于音视频处理
,更具体地,涉及一种基于视听融合效应的音视频跨模态搜索方法。

技术介绍

[0002]随着互联网技术的快速发展,以音频信息和视频信息为代表的多媒体数据呈现出几何式的增长。与此同时,对于不同类型的多媒体数据检索需求也与日俱增。跨模态的检索问题是该领域中重要的组成部分之一,其主要内容分为两个方面,一是不同模态信息的特征提取,二是跨模态的匹配与检索过程。
[0003]现有技术文件1(CN115063709A)公开了一种基于跨模态注意与分层融合的多模态情感分析方法,提取待分析视频中的文本特征、视觉特征和声学特征;将文本特征与声学特征、文本特征与视觉特征交叉注意,获得声学模态表征和视觉模态表征;门控循环分层融合网络对声学模态特征、视觉模态表征和文本特征两两交互提取信息,得到一维向量,用于情感分析预测。该技术针对的是同一视频的视频、文本和音频信息,对于无先验匹配性的跨模态信息没有有效的处理,并且不能完成跨模态检索的任务。
[0004]现有技术文件2(CN115587332A)公开了一种基于PolyViT的多模态数据分类预测模型,涉及多模态模型领域,其在第一导向模块中根据任务的类型将对应任务传输至标记器模块中对应类型的标记器,标记器模块用于对图像类型任务、视频类型任务、音频类型任务进行标记,从而得到对应类型任务的初始序列,编码器用于接收各标记器输入的初始序列,并通过其编码层对初始序列进行转换,各类型的任务均共用一个编码器,在处理图像类型任务时,编码器的编码层类似于L层的ViT,在处理音频类型任务时类似于L层AST,在处理视频类型任务时类似于L层未分解的ViViT。技术2也不能完成跨模态检索的任务。此外,该技术为压缩模型大小,音视频的处理采用同一套编码器,不能针对不同的模态作出相应的调整。

技术实现思路

[0005]为解决现有技术中存在的不足,本专利技术提供一种基于视听融合效应的音视频跨模态搜索方法,基于融合特征网络的音视频跨模态情感匹配与检索的方法,分别使用Audio Spectrogram Transformer(AST)和Video Visual Transformer(ViViT)提取音频和视频信号中的情感特征,将所提取的特征以矢量维度合并后输入到使用大边际余弦损失函数的分类器网络中,以分类标签任务作为监督目标,得到跨模态的融合特征空间,以实现基于情感的音视频匹配与检索。
[0006]本专利技术采用如下的技术方案。
[0007]一种基于视听融合效应的音视频跨模态搜索方法,包括:
[0008]步骤1,构建音频预处理模型,得到输入音频子网络的标准输入;
[0009]步骤2,采用经过预训练的音频频谱图变压器网络,对经过预处理的标准输入进行
处理,提取音频的情感特征;
[0010]步骤3,构建视频子网络,采用视频视觉变压器结构,提取视频的情感特征;
[0011]步骤4,将所提取的音频和视频特征以向量维度合并后,输入到使用大边际余弦损失函数的分类器网络进行训练,得到情感标签分类;
[0012]步骤5,将融合特征向量作为检索的内容,将向量间的余弦距离作为匹配的指标,在素材库中搜索与目标音频/视频余弦距离最近的若干视频/音频。
[0013]优选地,步骤1具体包括:
[0014]步骤1.1,对于采样率为sr,时长为t秒的音频进行分窗;每25ms对信号加10ms的Hamming窗,得到w(n);
[0015][0016]步骤1.2,对加窗后的信号进行快速傅里叶变换,得到Mel滤波器幅度谱W
k

[0017]W
k
=FFT(w(n))
[0018]步骤1.3,对幅度谱进行离散余弦变换,并对结果取对数,得到音频信号的对数Mel滤波器组系数M(m);
[0019][0020]式中,k为采样点,N为总的采样点数;
[0021]步骤1.4,将Mel频谱图分割成S个16
×
16的补丁序列,所得到的序列即为音频子网络的标准输入格式。
[0022]所述补丁序列时域和频域维度的重叠均为6,S=12[(100t

16)/10]。
[0023]优选地,步骤2中,音频频谱图变压器网络中的补丁嵌入层将每个16
×
16的频谱图补丁线性映射为长度为768的一维嵌入;并在一维补丁之后加入长度同样为768的可训练时序嵌入层,在一维补丁开头附加类别令牌嵌入层,形成3
×
768的三组一维向量。
[0024]优选地,步骤3中,所述视频视觉变压器结构对视频进行时空共轭分割,对于总长度为T,画面尺寸为W
×
H的原视频,首先对其进行时序分割,分割为长度为t的不重叠小块,形成时序块嵌入层;再对画面进行分割,分割成尺寸为w
×
h的不重叠小块,形成画面块嵌入层。
[0025]优选地,步骤4中,将步骤2中得到的音频特征向量以及步骤3中得到的视频特征向量,通过直接向量拼接得到融合特征向量f:
[0026][0027]其中,音频特征向量视频特征向量
[0028]本专利技术的有益效果在于,与现有技术相比,本专利技术的有益效果在于:
[0029]本专利技术所设计的情感标签分类明确且完善,有较强的理论支撑。
[0030]本专利技术所设计的人工智能模型先进,对情感特征的提取准确率较高,在分类任务和匹配搜索任务中都有很好的表现。
[0031]本专利技术适用的音、视频范围广泛,对于电影、纪录片、广告片以及纯音乐、古典乐、流行乐等都有很好的匹配检索效果。
附图说明
[0032]图1为本专利技术一种基于视听融合效应的音视频跨模态搜索方法示意图;
[0033]图2为本专利技术中音频子网络示意图;
[0034]图3为本专利技术中视频子网络示意图。
具体实施方式
[0035]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术的技术方案进行清楚、完整地描述。本申请所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部实施例。基于本专利技术精神,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术的保护范围。
[0036]一种基于视听融合效应的音视频跨模态搜索方法,如图1所示,具体包括以下步骤:
[0037]步骤1,构建音频预处理模型,得到输入音频子网络的标准输入;
[0038]步骤1具体包含以下过程:
[0039]步骤1.1,为避免频谱泄露,对于采样率为sr(默认采样率为48000Hz),时长为t秒的音频进行分窗。每25ms对信号加10ms的Hamming窗,得到w(n);
[0040][0041]步骤1.2,对加窗后的信号进行快速傅里叶变换,得到Mel滤波器幅度谱W
k

[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视听融合效应的音视频跨模态搜索方法,其特征在于,包括:步骤1,构建音频预处理模型,得到输入音频子网络的标准输入;步骤2,采用经过预训练的音频频谱图变压器网络,对经过步骤1预处理的标准输入进行处理,提取音频的情感特征;步骤3,构建视频子网络,采用视频视觉变压器结构,提取视频的情感特征;步骤4,将所提取的音频和视频特征以向量维度合并后,输入到使用大边际余弦损失函数的分类器网络进行训练,得到情感标签分类;步骤5,将融合特征向量作为检索的内容,将向量间的余弦距离作为匹配的指标,在素材库中搜索与目标音频/视频余弦距离最近的视频/音频。2.根据权利要求1所述的一种基于视听融合效应的音视频跨模态搜索方法,其特征在于:步骤1具体包括:步骤1.1,对于采样率为sr,时长为t秒的音频进行分窗;每25ms对信号加10ms的Hamming窗,得到w(n);步骤1.2,对加窗后的信号进行快速傅里叶变换,得到Mel滤波器幅度谱W
k
;W
k
=FFT(w(n))步骤1.3,对幅度谱进行离散余弦变换,并对结果取对数,得到音频信号的对数Mel滤波器组系数M(m);式中,k为采样点,N为总的采样点数;步骤1.4,将Mel频谱图分割成S个16
×
16的补丁序列,所得到的序列即为音频子网络的标准输入格式。3.根据权利要求2所述的一种基于视听融合效应的音视频跨模态搜索方法,其特征在于:所述补丁序列的时域和频域维度的重叠均为6,S=12[(100t
‑...

【专利技术属性】
技术研发人员:沈勇刘天宇孙戈非冯雪磊刘紫赟
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1