弱监督音视频内容解析的双路层次化混合模型的训练方法技术

技术编号：35100926 阅读：12 留言：0更新日期：2022-10-01 17:07

本发明专利技术公开了一种弱监督音视频内容解析的双路层次化混合模型的训练方法，所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络，该训练方法首先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注；然后利用得到的不完全准确的音频标注和视频标注，协同训练模态引导网络和层次化上下文建模网络；通过上述训练方法，可以得到具有较强模态分辨能力的上下文层次化建模网络，较好地对音视频进行内容解析；模态引导网络强化了模态区分能力；本发明专利技术采用的双路层次化混合模型来解决弱监督音视频内容解析任务，进一步提高了模型对不同模态的适应和理解能力。应和理解能力。应和理解能力。

全部详细技术资料下载

【技术实现步骤摘要】
弱监督音视频内容解析的双路层次化混合模型的训练方法

[0001]本专利技术涉及多模态视频理解中的视听事件定位与模态解析领域，具体涉及一种弱监督音视频内容解析的双路层次化混合模型的训练方法。

技术介绍

[0002]随着近年来互联网的快速发展，多媒体数据呈指数级增长，使得许多多模态技术应用向前迈进了一大步。在这一趋势的推动下，学术界和工业界都对多模态视频理解提出了新的需求，这在过去十年中吸引了大量的研究人员。弱监督音视频内容解析是多模态视频理解中最具挑战性的任务之一，其旨在将完整的有声视频解析为视频片段，并根据模态预测各个视频片段的事件类别，将它们标记为视觉事件、听觉事件或视听联合事件。由于没有提供时间边界和模态标注信息，只有视频级事件标签可用，因此这项任务比传统的多模态视频理解任务更具挑战性。此项技术存在较广泛的运用场景：通过在互联网信息管理、多媒体数据分析和人机交互等领域部署弱监督音视频内容解析技术，可以有效降低人工智能开发成本，提高数据分析的效率。例如，在智慧安防系统的开发过程中，基于监督学习的视频理解起着至关重要的作用，且高度依赖人工标注的多模态视频数据。我们可以通过弱监督音视频内容解析技术，对海量粗粒度有声视频进行初步标注，从而大大降低数据标注方面的人工开销。
[0003]目前，国内外的研究人员都对弱监督音视频内容解析开展了不同程度的研究工作，并取得了一定进展。但是，现有方法大多首先将视频和音频分成固定长度的短片段，然后通过观察单个事件片段来定位事件，从而导致了第一个技术缺陷：其忽略了不同时间尺度上的可...

【技术保护点】

【技术特征摘要】
1.一种弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络，其中，混合注意力网络用于模态特异化标签精炼；层次化上下文建模网络用于计算输入有声视频所含有的视觉、听觉、视听联合的事件定位结果；模态引导网络用于提升层次化上下文建模网络的模态辨别能力；该训练方法包括以下步骤：步骤1：获取音视频数据集，并将其按预设比例划分为训练集、验证集、测试集，其中，训练集仅存在弱监督标注信息，即所提供的用于训练的有声视频中仅标注其含有的动作或事件种类，没有详细的模态种类标注和时刻标注数据；步骤2：将所述音视频数据集的训练集、验证集、测试集中的有声视频拆分为音频数据和视频数据，并将音频数据和视频数据均划分为时序长度为1秒的片段；步骤3：加载预训练的2D卷积神经网络和3D卷积神经网络，分别用于提取划分为1秒片段的视频数据中的2D视觉特征和3D视觉特征；加载预训练的VGGish网络，对划分为1秒片段的音频数据提取听觉特征；进一步地，将2D视觉特征和3D视觉特征通过连结操作融合为综合视觉特征；步骤4：加载混合注意力网络，输入步骤3中所提取的听觉特征和综合视觉特征进行初步的音视频内容解析，随后利用混合注意力网络的预测结果，对所述音视频数据集中提供的不区分模态标注进行模态特异化标签精炼，最终得到在音频和视频模态上呈现出差异化的音频标注和视频标注；步骤5：构建层次化上下文建模网络，输入步骤3中得到的听觉特征和综合视觉特征，进行音视频内容解析，输出对应的有声视频所含有的视觉、听觉、视听联合的事件定位结果；步骤6：构建模态引导网络，所述模态引导网络包含视觉
‑
模态引导子网络和听觉
‑
模态引导子网络，视觉
‑
模态引导子网络输入综合视觉特征，预测训练辅助用的视觉的事件或动作定位结果；听觉
‑
模态引导子网络输入听觉特征，预测训练辅助用的听觉的事件或动作定位结果；步骤7：根据步骤4中得到的视频标注和音频标注以及步骤5中层次化上下文建模网络的输出，计算层次化上下文建模网络的混合模态事件定位损失；步骤8：根据步骤4中得到的视频标注和音频标注以及步骤6中视觉
‑
模态引导子网络的输出，计算视觉模态的单模态事件定位损失；根据步骤4中得到的视频标注和音频标注以及步骤6中听觉
‑
模态引导子网络的输出，计算听觉模态的单模态事件定位损失；步骤9：根据步骤5和步骤6的输出，计算视觉
‑
模态引导损失和听觉
‑
模态引导损失，这两部分损失仅用于优化层次化上下文建模网络，对于模态引导网络，由视觉
‑
模态引导损失函数和听觉
‑
模态引导损失函数产生的梯度将被截断；步骤10：根据步骤5中层次化上下文建模网络输出的结果和步骤6中模态引导网络输出的结果，计算层次化上下文建模网络输出的视觉、听觉的事件定位结果之间的反向均方差损失函数与模态引导网络输出的训练辅助用的视觉、听觉的事件定位结果之间的反向均方差损失函数，鼓励层次化上下文建模网络学习视频、音频两种模态之间的差异化信息，并结合步骤7
‑
9中各个部分的损失函数更新混合模态事件定位损失及视觉模态的单模态事件定位损失和听觉模态的单模态事件定位损失；步骤11：采用3个独立的Adam优化器，分别训练层次化上下文建模网络、视觉
‑
模态引导
子网络和听觉
‑
模态引导子网络。2.根据权利要求1所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，该训练方法还包括以下步骤：步骤12：在验证阶段，在验证集上评估训练完成的层次化上下文建模网络的预测结果准确性，在模型保存时仅保留层次化上下文建模网络作为部署模型，同时分别保存视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型；步骤13：在测试阶段，将步骤12中保存的视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型联合成为含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型，每条分支只对其相应的模态做事件定位动作；采用该含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型对测试集数据进行预测，两条分支分别得到测试集数据的视觉的事件或动作定位和听觉的事件或动作定位。3.根据权利要求2所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述步骤5具体包括：步骤5.1：输入步骤3中提取的综合视觉特征和听觉特征，进行层次化特征表征，假设经步骤3提取后的听觉特征表示为F
a
，综合视觉特征表示为F
v
，设H为设定的层次化数目上限，对于第h层，层次化特征表征由以下公式表示：其中，和分别表示第h层的第一音频线性映射层和第一视频线性映射层执行的操作，R
a
(
·
)和R
v
(
·
)分别为两个时序卷积残差模块执行的操作，k
h
和l
h
为第h层的卷积核尺寸和步长，分别为第h层的音频、视频层次化特征表征，h＝1,2,
…
,H；更详细地，时序卷积残差模块R
a
和R
v
被表示为：R(x,k,l)＝σ(BN(Conv1D(x,k,l)))+x为了便于表示，此处采用R(x,k,l)代指时序卷积残差模块R
a
和R
v
，其中σ为激励函数、批量归一化层和时序卷积，BN(
·
)、Conv1D(
·
)分别为批量归一化层和时序卷积层执行的操作，x为时序卷积残差模块的输入的特征，k为时序卷积残差模块的卷积核尺寸，l为时序卷积残差模块的时序卷积步长；步骤5.2：根据步骤5.1中所得到的层次化特征表征，挖掘不同层次中的特征上下文关系，并在特征空间中进行多尺度强化，具体由以下公式表示：其中，φ
sa
(
·
)、φ
ca
(
·
)和I(
·
)分别为层次化上下文建模网络的自注意力机制层、交叉注意力机制层和上采样插值执行的操作；和为第h层的音频、视频多尺度特征强化表征；步骤5.3：根据步骤5.2中所得到的音频、视频多尺度特征强化表征，利用多模态多实例学习池化模块，预测视频、音频分别所含有的视觉动作或事件类别、听觉动作或事件类别，
以及不区分模态的动作或事件类别，并在概率空间中对上述三类动作或事件类别进行多尺度强化，具体由以下公式表示：度强化，具体由以下公式表示：其中，P
a
、P
v
和P
wsl
分别为听觉分类概率、视觉分类概率、不区分模态分类概率，f
a
(
·
)、f
v
(
·
)分别为层次化上下文建模网络的第二音频线性映射层和第二视频线性映射层执行的操作，T为视频片段总数，δ(
·
)表示Sigmoid函数；和分别为第t个片段在视觉、听觉和不区分模态设定下，在整个视频中的注意力权重值，其计算公式表示如下：听觉和不区分模态设定下，在整个视频中的注意力权重值，其计算公式表示如下：其中，f
w
(
·
)为层次化上下文建模网络的第一注意力线性映射层执行的操...

【专利技术属性】
技术研发人员：徐行，蒋寻，陈智国，沈复民，宋井宽，申恒涛，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人