一种基于跨模态认知共识对齐的音视频分割方法技术

技术编号:39495030 阅读:7 留言:0更新日期:2023-11-24 11:21
该发明专利技术公开了一种基于跨模态认知共识对齐的音视频分割方法,属于多模态图像分割领域

【技术实现步骤摘要】
一种基于跨模态认知共识对齐的音视频分割方法


[0001]本专利技术属于多模态图像分割领域,给定一段视频和对应的音频,以音频信号为参考,对视频中发出该声音的目标进行提取并生成像素级掩码

本专利技术通过所提出的跨模态认知共识推断模块和认知共识引导的注意力模块,对音

视频进行显式的语义级跨模态对齐,并获得良好的目标分割结果


技术介绍

[0002]随着计算机视觉领域的不断发展,诸如语义分割

实例分割

全景分割的视觉图像目标细粒度分割技术已经取得了显著的成就,上述方法等同对待图像中的每一个目标和背景并对它们进行分割

然而,在真实多媒体应用场景中,往往只需要突出真正感兴趣的目标,这是上述图像分割方法无法实现的

而音视频分割的目的就是在音频信息的指导之下,精细化提取图像中感兴趣目标
(
发声目标
)
,这种分割方法在现实应用场景中有着广泛的潜在用途与重要的意义

[0003]音视频分割的主要挑战在于如下两个方面:一方面,模型需要充分理解视觉

音频两种模态各自的语义内容以及长距离上下文信息;另一方面,模型需要对视觉

音频模态进行显式

准确的对齐

准确来说,一段音频信息中通常只包含全局的音频标签信息,但视频的每一帧图像往往包含不同的局部目标,实现从全局到局部的对齐,并突出感兴趣的目标,是该项任务的关键性难点

[0004]在视频

音频数据编码器方面,已经有许多优秀的模型被提出

在视觉模态方面,研究人员通常使用基于卷积神经网络
(CNN)
的视觉编码器,例如:
ResNet、VGGNet
等,或者使用更高性能的基于
Transformer
的视觉编码器,例如:
ViT、Swin Transformer、PVT
等;在音频模态方面,目前主流的方法是将音频转化为声谱图,并采用卷积网络结构的编码器去提取特征,广为应用的音频编码器有:
VGGish、PANNs


上述高性能视觉

音频编码器为本方法提供了坚实的基础与稳定的保障

[0005]本方法在
ECCV 2022
的论文
《Audio

Visual Segmentation》
的基础上进行进一步改进

在这篇论文提出的方法中,作者利用跨模态注意力模块,对提取的音频

视频特征进行稠密的跨模态交互,并将交互后的多模态特征输入分割头来实现音视频分割

然而,上述方法只对音视频模态进行了特征级的交互及对齐,单一的特征级对齐无法有效解决上述从全局到局部的维度差距问题

所以,为了解决上述问题,提出了一种基于语义级跨模态认知共识的方法,在音视频特征级交互的基础上进一步进行语义级交互,有效弥补维度差距并实现更为精确的分割

[0006]本方案未在国内外出版物上公开发表,未在国内外公开使用或者以其他方式为公众所知


技术实现思路

[0007]本专利技术的目的在于解决以下技术问题:
[0008]其一:现有的音视频分割方法仅仅利用单一的特征级交互来实现跨模态对齐,并无法解决从音频全局信息与视觉多个局部信息之间的维度差异问题;为了解决这一问题,本专利技术提出了跨模态认知共识推断模块以实现模态之间的语义级对齐;具体来说,本专利技术通过音视频编码器的分类头对音视频模态分别进行分类,并获得音视频模态各自的分类置信度,将上述置信度与音视频分类标签的语义相似度进行加权打分,以获得模态对齐的语义标签

[0009]其二:在获得模态对齐的语义标签之后,本专利技术利用梯度反传技术,将模态对齐的标签传回视觉编码器中,并获得该语义类别对应的权重向量;本专利技术提出了认知共识引导的注意力模块,以将语义级对齐信息注入音视频分割框架中,从而实现音视频模态的特征级对齐与语义级对齐的结合;后续,本专利技术将音视频对齐的特征输入到通用的全卷积分割网络中,以实现对发声目标的分割;本专利技术通过推断跨模态认知共识并将其与特征级对齐相结合,达到了目前最先进的分割性能

现有的音视频分割方法使用跨模态注意力模块实现稠密的音视频特征级交互,但是由于更高层次的语义级跨模态对齐的缺失,现有方法难以解决音频全局标签与视频多个局部区域的维度差异问题
[0010]本专利技术技术方案为:一种基于跨模态认知共识对齐的音视频分割方法,该方法包括:
[0011]步骤1:获得视频帧以及其对应的音频片段;视觉编码器具有四个特征提取阶段,将视频帧输入至视觉编码器,并取视觉编码器四个阶段输出的视觉特征作为层次化视觉特征,并表示为
V
i

i

1,2,3,4
;此外,将音频片段输入音频编码器,提取音频特征
F
a
;层次化视觉特征
V
i
与音频特征
F
a
将用于进行后续计算;
[0012]步骤2:利用音频编码器和视觉编码器预置的分类头及其分类权重;在视觉编码器输出的层次化视觉特征
V
i

i

1,2,3,4
中,
V4为最高层级的视觉特征,并且包含图像的全局性语义信息;分别对视觉特征
V4与音频特征
F
a
进行类别置信度打分,计算得到的视觉分类置信度与音频分类置信度接着,计算视觉标签文本与音频标签文本之间的语义级相似度
m
jk
,具体公式如下:
[0013][0014]其中,
||
·
||
F
代表
Frobenius
范数,
j

k
分别代表最终计算得到的语义相似度矩阵
M
sim
的行

列索引;接着,计算置信度重加权矩阵
M
cof
(j,k)
,具体公式如下:
[0015][0016]其中,
α

β
为平衡系数,置信度重加权矩阵
M
cof
(j,k)
内的值即可看做对应视觉语义与文本语义的认知共识打分;在获取置信度重加权矩阵
M
cof
(j,k)
后,找到矩阵中的最大打分值,并获取最大值处对应的视觉标签,以作为模态对齐的语义标签;将模态对齐的语义标签以梯度反向传播的形式传回视觉编码器的四个层次化阶段,并得到类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于跨模态认知共识对齐的音视频分割方法,该方法包括:步骤1:获得视频帧以及其对应的音频片段;视觉编码器具有四个特征提取阶段,将视频帧输入至视觉编码器,并取视觉编码器四个阶段输出的视觉特征作为层次化视觉特征,并表示为
V
i

i

1,2,3,4
;此外,将音频片段输入音频编码器,提取音频特征
F
a
;层次化视觉特征
V
i
与音频特征
F
a
将用于进行后续计算;步骤2:利用音频编码器和视觉编码器预置的分类头及其分类权重;在视觉编码器输出的层次化视觉特征
V
i

i

1,2,3,4
中,
V4为最高层级的视觉特征,并且包含图像的全局性语义信息;分别对视觉特征
V4与音频特征
F
a
进行类别置信度打分,计算得到的视觉分类置信度与音频分类置信度接着,计算视觉标签文本与音频标签文本之间的语义级相似度
m
jk
,具体公式如下:其中,
||
·
||
F
代表
Frobenius
范数,
j

k
分别代表最终计算得到的语义相似度矩阵
M
sim
的行

列索引;接着,计算置信度重加权矩阵
M
cof
(j,k)
,具体公式如下:其中,
α

β
为平衡系数,置信度重加权矩阵
M
cof
(j,k)
内的值即可看做对应视觉语义与文本语义的认知共识打分;在获取置信度重加权矩阵
M
cof
(j,k)
后,找到矩阵中的最大打分值,并获取最大值处对应的视觉标签,以作为模态对齐的语义标...

【专利技术属性】
技术研发人员:吴庆波施兆丰李宏亮孟凡满潘力立许林峰
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1