一种基于视听融合效应的音视频跨模态搜索方法技术

技术编号：38876096 阅读：16 留言：0更新日期：2023-09-22 14:09

一种基于视听融合效应的音视频跨模态搜索方法，对于用户给出的音频或视频，本发明专利技术可以通过训练好的人工智能网络，进行跨模态的搜索，即通过音频搜索视频或通过视频搜索音频。对于输入的其进行情感特征的提取，并以特征向量的余弦距离在素材库中进行搜索。本发明专利技术可以适配目前常见音视频格式的要求，内容上视频适用场景包括电影、纪录片、广告片等，音频适用场景包括古典乐、流行乐、爵士乐等。爵士乐等。爵士乐等。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视听融合效应的音视频跨模态搜索方法

[0001]本专利技术属于音视频处理
，更具体地，涉及一种基于视听融合效应的音视频跨模态搜索方法。

技术介绍

[0002]随着互联网技术的快速发展，以音频信息和视频信息为代表的多媒体数据呈现出几何式的增长。与此同时，对于不同类型的多媒体数据检索需求也与日俱增。跨模态的检索问题是该领域中重要的组成部分之一，其主要内容分为两个方面，一是不同模态信息的特征提取，二是跨模态的匹配与检索过程。
[0003]现有技术文件1(CN115063709A)公开了一种基于跨模态注意与分层融合的多模态情感分析方法，提取待分析视频中的文本特征、视觉特征和声学特征；将文本特征与声学特征、文本特征与视觉特征交叉注意，获得声学模态表征和视觉模态表征；门控循环分层融合网络对声学模态特征、视觉模态表征和文本特征两两交互提取信息，得到一维向量，用于情感分析预测。该技术针对的是同一视频的视频、文本和音频信息，对于无先验匹配性的跨模态信息没有有效的处理，并且不能完成跨模态检索的任务。
[0004]现有技术文件2(CN115587332A)公开了一种基于PolyViT的多模态数据分类预测模型，涉及多模态模型领域，其在第一导向模块中根据任务的类型将对应任务传输至标记器模块中对应类型的标记器，标记器模块用于对图像类型任务、视频类型任务、音频类型任务进行标记，从而得到对应类型任务的初始序列，编码器用于接收各标记器输入的初始序列，并通过其编码层对初始序列进行转换，各类型的任务均共用一个编码器，在处理图...

【技术保护点】

【技术特征摘要】
1.一种基于视听融合效应的音视频跨模态搜索方法，其特征在于，包括：步骤1，构建音频预处理模型，得到输入音频子网络的标准输入；步骤2，采用经过预训练的音频频谱图变压器网络，对经过步骤1预处理的标准输入进行处理，提取音频的情感特征；步骤3，构建视频子网络，采用视频视觉变压器结构，提取视频的情感特征；步骤4，将所提取的音频和视频特征以向量维度合并后，输入到使用大边际余弦损失函数的分类器网络进行训练，得到情感标签分类；步骤5，将融合特征向量作为检索的内容，将向量间的余弦距离作为匹配的指标，在素材库中搜索与目标音频/视频余弦距离最近的视频/音频。2.根据权利要求1所述的一种基于视听融合效应的音视频跨模态搜索方法，其特征在于：步骤1具体包括：步骤1.1，对于采样率为sr，时长为t秒的音频进行分窗；每25ms对信号加10ms的Hamming窗，得到w(n)；步骤1.2，对加窗后的信号进行快速傅里叶变换，得到Mel滤波器幅度谱W
k
；W
k
＝FFT(w(n))步骤1.3，对幅度谱进行离散余弦变换，并对结果取对数，得到音频信号的对数Mel滤波器组系数M(m)；式中，k为采样点，N为总的采样点数；步骤1.4，将Mel频谱图分割成S个16
×
16的补丁序列，所得到的序列即为音频子网络的标准输入格式。3.根据权利要求2所述的一种基于视听融合效应的音视频跨模态搜索方法，其特征在于：所述补丁序列的时域和频域维度的重叠均为6，S＝12[(100t
‑...

【专利技术属性】
技术研发人员：沈勇，刘天宇，孙戈非，冯雪磊，刘紫赟，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人