弱监督音视频内容解析的双路层次化混合模型的训练方法技术

技术编号:35100926 阅读:5 留言:0更新日期:2022-10-01 17:07
本发明专利技术公开了一种弱监督音视频内容解析的双路层次化混合模型的训练方法,所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络,该训练方法首先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注;然后利用得到的不完全准确的音频标注和视频标注,协同训练模态引导网络和层次化上下文建模网络;通过上述训练方法,可以得到具有较强模态分辨能力的上下文层次化建模网络,较好地对音视频进行内容解析;模态引导网络强化了模态区分能力;本发明专利技术采用的双路层次化混合模型来解决弱监督音视频内容解析任务,进一步提高了模型对不同模态的适应和理解能力。应和理解能力。应和理解能力。

【技术实现步骤摘要】
弱监督音视频内容解析的双路层次化混合模型的训练方法


[0001]本专利技术涉及多模态视频理解中的视听事件定位与模态解析领域,具体涉及一种弱监督音视频内容解析的双路层次化混合模型的训练方法。

技术介绍

[0002]随着近年来互联网的快速发展,多媒体数据呈指数级增长,使得许多多模态技术应用向前迈进了一大步。在这一趋势的推动下,学术界和工业界都对多模态视频理解提出了新的需求,这在过去十年中吸引了大量的研究人员。弱监督音视频内容解析是多模态视频理解中最具挑战性的任务之一,其旨在将完整的有声视频解析为视频片段,并根据模态预测各个视频片段的事件类别,将它们标记为视觉事件、听觉事件或视听联合事件。由于没有提供时间边界和模态标注信息,只有视频级事件标签可用,因此这项任务比传统的多模态视频理解任务更具挑战性。此项技术存在较广泛的运用场景:通过在互联网信息管理、多媒体数据分析和人机交互等领域部署弱监督音视频内容解析技术,可以有效降低人工智能开发成本,提高数据分析的效率。例如,在智慧安防系统的开发过程中,基于监督学习的视频理解起着至关重要的作用,且高度依赖人工标注的多模态视频数据。我们可以通过弱监督音视频内容解析技术,对海量粗粒度有声视频进行初步标注,从而大大降低数据标注方面的人工开销。
[0003]目前,国内外的研究人员都对弱监督音视频内容解析开展了不同程度的研究工作,并取得了一定进展。但是,现有方法大多首先将视频和音频分成固定长度的短片段,然后通过观察单个事件片段来定位事件,从而导致了第一个技术缺陷:其忽略了不同时间尺度上的可变语义,最终限制了在完整事件层面的定位性能,尤其是对于那些持续事件较长的事件,现有方法往往表现不佳。其次,目前已有的技术大都采用联合多模态建模来学习上下文相关性和对齐语义,对于不同模态中特有的模态内特征信息挖掘往往不足,而这些模态内信息对于区分模态类别又起着至关重要的作用。上述两个问题,分别对应着音视频内容解析在实际应用中的事件定位精度和模态区分能力,提出一套能够充分学习不同时间尺度事件语义,并能进一步挖掘模态内信息的弱监督音视频内容解析框架,对于本项技术在实际应用场景中的推广有着至关重要的作用。

技术实现思路

[0004]本专利技术是一种弱监督音视频内容解析的双路层次化混合模型的训练方法,其中,所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络。混合注意力网络用于模态特异化标签精炼,层次化上下文建模网络用于计算输入有声视频所含有的视觉、听觉、视听联合的事件定位结果。模态引导网络用于提升层次化上下文建模网络的模态辨别能力。该弱监督音视频内容解析的双路层次化混合模型的训练方法分为两个阶段,在第一阶段,先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注;在第二阶段,利用第一阶段得到的不
完全准确的音频标注和视频标注,协同训练模态引导网络和层次化上下文建模网络。通过上述两阶段训练方法,可以得到具有较强模态分辨能力的上下文层次化建模网络,该网络可以较好地对音视频进行内容解析。
[0005]具体来说,本专利技术提出了一种弱监督音视频内容解析的双路层次化混合模型的训练方法,包括以下步骤:
[0006]步骤1:获取音视频数据集,并将其按预设比例划分为训练集、验证集、测试集;其中,训练集仅存在弱监督标注信息,即所提供的用于训练的有声视频中仅标注其含有的动作或事件种类,没有详细的模态种类标注和时刻标注数据。
[0007]步骤2:将所述音视频数据集的训练集、验证集、测试集中的有声视频拆分为音频数据和视频数据,并将音频数据和视频数据均划分为时序长度为1秒的片段。
[0008]步骤3:加载预训练的2D卷积神经网络和3D卷积神经网络,分别用于提取划分为1秒片段的视频数据中的2D视觉特征和3D视觉特征。加载预训练的VGGish网络,对划分为1秒片段的音频数据提取听觉特征;进一步地,将2D视觉特征和3D视觉特征通过连结操作融合为综合视觉特征;
[0009]步骤4:加载混合注意力网络,输入步骤3中所提取的听觉特征和综合视觉特征进行初步的音视频内容解析,随后利用混合注意力网络的预测结果,进行模态特异化标签精炼,最终得到在音频和视频模态上呈现出差异化的音频标注和视频标注。其中所述的混合注意力网络、模态特异化标签精炼的解释如下:
[0010]混合注意力网络是一个弱监督音视频内容解析网络,由多层自注意力机制、跨模态注意力机制、多标签分类层构成,可以得到弱监督音视频内容解析的初步结果,但效果较差。模态特异化标签精炼,是指通过交换原有音频、原有视频轨道生成伪造视频,进一步观察不同事件在原有视频和伪造视频中的概率变化,判断弱监督标注信息的模态依赖关系,从而实现标签的精炼。模态特异化标签精炼可以生成具有一定差异化的模态监督信息,使原来的弱监督标注转变为不完全准确的音频标注和视频标注。
[0011]步骤5:构建本专利技术提出的层次化上下文建模网络,输入步骤3中得到的听觉特征和综合视觉特征,进行音视频内容解析,输出对应的有声视频所含有的视觉、听觉、视听联合的事件定位结果;
[0012]步骤6:构建本专利技术提出的模态引导网络,所述模态引导网络包含视觉

模态引导子网络和听觉

模态引导子网络,对于以上两个子网络,分别输入步骤3中得到的综合视觉特征和听觉特征,视觉

模态引导子网络输入综合视觉特征,预测视觉的事件或动作定位结果;听觉

模态引导子网络输入听觉特征,预测听觉的事件或动作定位结果;
[0013]步骤7:根据步骤4中精炼后的视频标注和音频标注和步骤5中层次化上下文建模网络的输出,计算层次化上下文建模网络的混合模态事件定位损失;
[0014]步骤8:根据步骤4中精炼后的视频标注和音频标注和步骤6中视觉

模态引导子网络的输出,计算视觉模态的单模态事件定位损失;根据步骤4中精炼后的视频标注和音频标注和步骤6中听觉

模态引导子网络的输出,计算听觉模态的单模态事件定位损失;
[0015]步骤9:根据步骤5和步骤6的输出,计算视觉

模态引导损失和听觉

模态引导损失。这两部分损失仅用于优化层次化上下文建模网络,对于模态引导网络,由视觉

模态引导损失函数和听觉

模态引导损失函数产生的梯度将被截断。
[0016]步骤10:根据步骤5中层次化上下文建模网络输出的结果和步骤6中模态引导网络输出的结果,计算层次化上下文建模网络输出的视觉、听觉事件定位结果之间的反向均方差损失函数与模态引导网络输出的训练辅助用的视觉、听觉事件定位结果之间的反向均方差损失函数,鼓励层次化上下文建模网络学习视频、音频两种模态之间的差异化信息,并结合步骤7

9中各个部分的损失函数更新混合模态事件定位损失及视觉模态的单模态事件定位损失和听觉模态的单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种弱监督音视频内容解析的双路层次化混合模型的训练方法,其特征在于,所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络,其中,混合注意力网络用于模态特异化标签精炼;层次化上下文建模网络用于计算输入有声视频所含有的视觉、听觉、视听联合的事件定位结果;模态引导网络用于提升层次化上下文建模网络的模态辨别能力;该训练方法包括以下步骤:步骤1:获取音视频数据集,并将其按预设比例划分为训练集、验证集、测试集,其中,训练集仅存在弱监督标注信息,即所提供的用于训练的有声视频中仅标注其含有的动作或事件种类,没有详细的模态种类标注和时刻标注数据;步骤2:将所述音视频数据集的训练集、验证集、测试集中的有声视频拆分为音频数据和视频数据,并将音频数据和视频数据均划分为时序长度为1秒的片段;步骤3:加载预训练的2D卷积神经网络和3D卷积神经网络,分别用于提取划分为1秒片段的视频数据中的2D视觉特征和3D视觉特征;加载预训练的VGGish网络,对划分为1秒片段的音频数据提取听觉特征;进一步地,将2D视觉特征和3D视觉特征通过连结操作融合为综合视觉特征;步骤4:加载混合注意力网络,输入步骤3中所提取的听觉特征和综合视觉特征进行初步的音视频内容解析,随后利用混合注意力网络的预测结果,对所述音视频数据集中提供的不区分模态标注进行模态特异化标签精炼,最终得到在音频和视频模态上呈现出差异化的音频标注和视频标注;步骤5:构建层次化上下文建模网络,输入步骤3中得到的听觉特征和综合视觉特征,进行音视频内容解析,输出对应的有声视频所含有的视觉、听觉、视听联合的事件定位结果;步骤6:构建模态引导网络,所述模态引导网络包含视觉

模态引导子网络和听觉

模态引导子网络,视觉

模态引导子网络输入综合视觉特征,预测训练辅助用的视觉的事件或动作定位结果;听觉

模态引导子网络输入听觉特征,预测训练辅助用的听觉的事件或动作定位结果;步骤7:根据步骤4中得到的视频标注和音频标注以及步骤5中层次化上下文建模网络的输出,计算层次化上下文建模网络的混合模态事件定位损失;步骤8:根据步骤4中得到的视频标注和音频标注以及步骤6中视觉

模态引导子网络的输出,计算视觉模态的单模态事件定位损失;根据步骤4中得到的视频标注和音频标注以及步骤6中听觉

模态引导子网络的输出,计算听觉模态的单模态事件定位损失;步骤9:根据步骤5和步骤6的输出,计算视觉

模态引导损失和听觉

模态引导损失,这两部分损失仅用于优化层次化上下文建模网络,对于模态引导网络,由视觉

模态引导损失函数和听觉

模态引导损失函数产生的梯度将被截断;步骤10:根据步骤5中层次化上下文建模网络输出的结果和步骤6中模态引导网络输出的结果,计算层次化上下文建模网络输出的视觉、听觉的事件定位结果之间的反向均方差损失函数与模态引导网络输出的训练辅助用的视觉、听觉的事件定位结果之间的反向均方差损失函数,鼓励层次化上下文建模网络学习视频、音频两种模态之间的差异化信息,并结合步骤7

9中各个部分的损失函数更新混合模态事件定位损失及视觉模态的单模态事件定位损失和听觉模态的单模态事件定位损失;步骤11:采用3个独立的Adam优化器,分别训练层次化上下文建模网络、视觉

模态引导
子网络和听觉

模态引导子网络。2.根据权利要求1所述的弱监督音视频内容解析的双路层次化混合模型的训练方法,其特征在于,该训练方法还包括以下步骤:步骤12:在验证阶段,在验证集上评估训练完成的层次化上下文建模网络的预测结果准确性,在模型保存时仅保留层次化上下文建模网络作为部署模型,同时分别保存视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型;步骤13:在测试阶段,将步骤12中保存的视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型联合成为含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型,每条分支只对其相应的模态做事件定位动作;采用该含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型对测试集数据进行预测,两条分支分别得到测试集数据的视觉的事件或动作定位和听觉的事件或动作定位。3.根据权利要求2所述的弱监督音视频内容解析的双路层次化混合模型的训练方法,其特征在于,所述步骤5具体包括:步骤5.1:输入步骤3中提取的综合视觉特征和听觉特征,进行层次化特征表征,假设经步骤3提取后的听觉特征表示为F
a
,综合视觉特征表示为F
v
,设H为设定的层次化数目上限,对于第h层,层次化特征表征由以下公式表示:其中,和分别表示第h层的第一音频线性映射层和第一视频线性映射层执行的操作,R
a
(
·
)和R
v
(
·
)分别为两个时序卷积残差模块执行的操作,k
h
和l
h
为第h层的卷积核尺寸和步长,分别为第h层的音频、视频层次化特征表征,h=1,2,

,H;更详细地,时序卷积残差模块R
a
和R
v
被表示为:R(x,k,l)=σ(BN(Conv1D(x,k,l)))+x为了便于表示,此处采用R(x,k,l)代指时序卷积残差模块R
a
和R
v
,其中σ为激励函数、批量归一化层和时序卷积,BN(
·
)、Conv1D(
·
)分别为批量归一化层和时序卷积层执行的操作,x为时序卷积残差模块的输入的特征,k为时序卷积残差模块的卷积核尺寸,l为时序卷积残差模块的时序卷积步长;步骤5.2:根据步骤5.1中所得到的层次化特征表征,挖掘不同层次中的特征上下文关系,并在特征空间中进行多尺度强化,具体由以下公式表示:其中,φ
sa
(
·
)、φ
ca
(
·
)和I(
·
)分别为层次化上下文建模网络的自注意力机制层、交叉注意力机制层和上采样插值执行的操作;和为第h层的音频、视频多尺度特征强化表征;步骤5.3:根据步骤5.2中所得到的音频、视频多尺度特征强化表征,利用多模态多实例学习池化模块,预测视频、音频分别所含有的视觉动作或事件类别、听觉动作或事件类别,
以及不区分模态的动作或事件类别,并在概率空间中对上述三类动作或事件类别进行多尺度强化,具体由以下公式表示:度强化,具体由以下公式表示:其中,P
a
、P
v
和P
wsl
分别为听觉分类概率、视觉分类概率、不区分模态分类概率,f
a
(
·
)、f
v
(
·
)分别为层次化上下文建模网络的第二音频线性映射层和第二视频线性映射层执行的操作,T为视频片段总数,δ(
·
)表示Sigmoid函数;和分别为第t个片段在视觉、听觉和不区分模态设定下,在整个视频中的注意力权重值,其计算公式表示如下:听觉和不区分模态设定下,在整个视频中的注意力权重值,其计算公式表示如下:其中,f
w
(
·
)为层次化上下文建模网络的第一注意力线性映射层执行的操...

【专利技术属性】
技术研发人员:徐行蒋寻陈智国沈复民宋井宽申恒涛
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1