当前位置: 首页 > 专利查询>中南大学专利>正文

基于音视频双模态特征融合的视频时域动作分割方法技术

技术编号:35944790 阅读:23 留言:0更新日期:2022-12-14 10:34
本发明专利技术提供了一种基于音视频双模态特征融合的视频时域动作分割方法,设计了一种视频时域动作分割网络模型,将音频特征引入到视频时域动作分割任务中,利用音频天然的波形特征以及视频特征用于回归动作边界概率,并设计多阶段视听双模态级联网络,用以捕获视频的边界信息,细化网络的逐帧动作预测;同时设计视听双模态边界回归模块计算音频特征和视频特征得到动作边界概率并对上述多阶段视听双模态级联网络的动作分类结果进行细化,捕获可靠的视频片段与正确的视频动作分类,用以缓解视频分割时的边界模糊问题,提高视频动作分割效果。果。果。

【技术实现步骤摘要】
基于音视频双模态特征融合的视频时域动作分割方法


[0001]本专利技术涉及视频动作分割
,具体涉及一种基于音视频双模态特征融合的视频时域动作分割方法。

技术介绍

[0002]随着深度学习在短的剪辑视频分类中的成功应用,对于未经剪辑的长视频的时域动作分割与动作分类受到了越来越多的关注,并已成为视频内容理解的一个热门研究方向。
[0003]视频时域动作分割任务即指在一段未经剪裁的视频中对每一帧所属的动作类别进行分类,需要回答的问题是:哪些视频帧属于哪个动作类别。视频时域动作分割方法能够体现对未经剪裁视频的智能化自动化分析过程,可以帮助视频中多个动作段划分,能够对视频中动作进行细粒度的分析,用以提升动作理解效率。视频时域动作分割方法可以用于有连续动作的应用场景,如生产线生产装配、人机交互、教学视频以及医务人员的实际操作流程等,同时对视频处理技术的现代化、智能化和自动化也有重大的推进作用。因此,针对视频时域动作分割方法在视频智能化与自动化处理领域具有极其重要的应用价值。
[0004]目前最先进的视频时域动作分割方法是利用多层时域卷积和时域池化实现的,这些方法能够捕捉视频时域相关性,但几乎都存在过度分割与边界模糊的问题。
[0005]综上所述,急需一种基于音视频双模态特征融合的视频时域动作分割方法以解决现有技术中存在的问题。

技术实现思路

[0006]本专利技术目的在于提供一种基于音视频双模态特征融合的视频时域动作分割方法,旨在解决现有技术存在过度分割与边界模糊的问题,具体技术方案如下:
[0007]基于音视频双模态特征融合的视频时域动作分割方法,包括以下步骤:
[0008]S1:提取多媒体数据的视频特征和音频特征;
[0009]S2:建立视频时域动作分割网络模型,并依据视频时域动作分割网络模型输出视频时域动作分割分类结果,所述视频时域动作分割网络模型包括多阶段视听双模态级联网络与视听双模态边界回归模块,具体步骤包括:
[0010]S2

1:将多媒体数据的音频特征融入视频特征,得到融合后的视听双模态特征,输入多阶段视听多模态级联网络中;
[0011]S2

2:基于音频特征和视频特征,通过视听双模态边界回归模块生成视听双模态边界平滑算子,通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分,并生成自注意力权重;
[0012]S2

3:将多阶段视听多模态级联网络中每个级联阶段的帧置信度得分根据自注意力权重矩阵加权求和,输入融合阶段,得到融合分类分数,根据融合分类分数输出视频时域动作分割分类结果。
[0013]优选的,所述步骤S2

2中通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分的表达式为:
[0014][0015]b

=(b
video
+βb
audio
)/2;
[0016]其中,为加入平滑算子后网络预测的帧置信度得分;为帧置信度得分;s为池化的方向;β为确定不同特征贡献的模型超参数;L为长度,池化窗口的长度为2L+1;为池化窗口内帧的帧置信度得分;α为自注意力权重的衰减率;j为池化窗口中每个方向取的元素数目;b

t+s
·
j
为池化窗口内的动作边界概率;att为自注意力调整单元;b

为融合边界概率;b
video
为视频边界概率;b
audio
为音频边界概率。
[0017]优选的,所述步骤S2

2中自注意力权重的表达式为:
[0018][0019]其中,为多阶段视听多模态级联网络中每个级联阶段的自注意力权重;e为自然常数;ρ为设置的帧置信度得分阈值;为时间为t,阶段为j

时的帧置信度得分。
[0020]优选的,所述步骤S2

3中融合分类分数的表达式为:
[0021][0022]其中,为融合分类分数。
[0023]优选的,所述步骤S2

3中还包括以下步骤:通过视听双模态边界平滑算子平滑融合分类分数,其表达式如下:
[0024][0025]b

=(b
video
+βb
audio
)/2;
[0026]其中,为加入平滑算子后网络预测的平滑融合分类分数。
[0027]优选的,还包括级联阶段在帧上的损失分布,表达式如下:
[0028][0029]其中,为级联阶段在帧上的损失分布;y
t,c
为在时间t时类别C的预测概率;t为某一时间;
[0030]以及融合阶段在帧上的分类损失,表达式如下:
[0031][0032]其中,为分类损失;T为多媒体数据的总时长。
[0033]优选的,通过视听双模态边界平滑算子平滑级联阶段的帧置信度得分和融合分类分数时的平滑损失,其表达式如下:
[0034][0035][0036]Δ
t,c
=|logy
t,c

logy
t

1,c
|;
[0037]其中,为平滑损失;C
n
为类别总数;σ为标准差;x
t
为在t时间的帧置信度得分;为前后两帧置信度得分的对数差的平方;Δ
t,c
为前后两帧置信度得分的对数差;τ为阈值。
[0038]优选的,所述级联阶段的最终损失函数的表达式为:
[0039][0040]其中,λ为确定不同损失贡献的模型超参数;为级联阶段的最终损失函数;
[0041]所述融合阶段的最终损失函数的表达式为:
[0042][0043]其中,为融合阶段的最终损失函数。
[0044]优选的,所有级联阶段和融合阶段的最小化损失总和的表达式为:
[0045][0046]其中,为所有级联阶段和融合阶段的最小化损失总和。
[0047]优选的,还包括视听双模态边界回归的损失函数,其表达式如下:
[0048][0049]其中,N是预测阶段数;为视听双模态边界回归的损失函数;为边界回归
每个阶段的交叉熵损失。
[0050]应用本专利技术的技术方案,具有以下有益效果:
[0051](1)本专利技术专利提出了一种基于音视频双模态特征融合的视频时域动作分割方法,设计了一种视频时域动作分割网络模型,将音频特征引入到视频时域动作分割任务中(即将将多媒体数据的音频特征融入视频特征,得到融合后的视听双模态特征,输入视频时域动作分割网络模型的多阶段视听多模态级联网络中),利用音频天然的波形特征以及视频特征用于回归动作边界概率,并设计多阶段视听双模态级联网络,用以捕获视频的边界信息,细化网络的逐帧本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于音视频双模态特征融合的视频时域动作分割方法,其特征在于,包括以下步骤:S1:提取多媒体数据的视频特征和音频特征;S2:建立视频时域动作分割网络模型,并依据视频时域动作分割网络模型输出视频时域动作分割分类结果,所述视频时域动作分割网络模型包括多阶段视听双模态级联网络与视听双模态边界回归模块,具体步骤包括:S2

1:将多媒体数据的音频特征融入视频特征,得到融合后的视听双模态特征,输入多阶段视听多模态级联网络中;S2

2:基于音频特征和视频特征,通过视听双模态边界回归模块生成视听双模态边界平滑算子,通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分,并生成自注意力权重;S2

3:将多阶段视听多模态级联网络中每个级联阶段的帧置信度得分根据自注意力权重矩阵加权求和,输入融合阶段,得到融合分类分数,根据融合分类分数输出视频时域动作分割分类结果。2.根据权利要求1所述的视频时域动作分割方法,其特征在于,所述步骤S2

2中通过视听双模态边界平滑算子平滑多阶段视听多模态级联网络中每个级联阶段的帧置信度得分的表达式为:b

=(b
video
+βb
audio
)/2;其中,为加入平滑算子后网络预测的帧置信度得分;为帧置信度得分;s为池化的方向;β为确定不同特征贡献的模型超参数;L为长度,池化窗口的长度为2L+1;为池化窗口内帧的帧置信度得分;α为自注意力权重的衰减率;j为池化窗口中每个方向取的元素数目;b

t+s
·
j
为池化窗口内的动作边界概率;att为自注意力调整单元;b

为融合边界概率;b
video
为视频边界概率;b
audio
为音频边界概率。3.根据权利要求2所述的视频时域动作分割方法,其特征在于,所述步骤S2

2中自注意力权重的表达式为:其中,为多阶段视听多模态级联网络中每个级联阶段的自注意力权重;e为自然常数;ρ为设置的帧置信度得分阈值;为时间为t,阶段为j

时的帧置信度得分。4.根据权利要求3所述的视...

【专利技术属性】
技术研发人员:杨柳殷鑫龙军蒋豫吴振杰
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1