基于记忆网络的弱监督时域动作定位方法及系统技术方案

技术编号:28499809 阅读:46 留言:0更新日期:2021-05-19 22:40
本公开提供一种基于记忆网络的弱监督时域动作定位方法,包括:对输入的视频进行特征提取,得到针对定位任务的视频特征;构建动作单元记忆库;根据所述视频特征,建模视频内部的时序结构,得到语义增强的特征;读取所述动作单元记忆库的信息并进行维度变换后,应用于所述语义增强的视频特征生成片段级分类结果;以及获取模板相似性性并进行最大池化生成前景注意力权重,再结合所述片段级分类结果确定动作的类别,从而实现基于记忆网络的弱监督时域动作的定位。本公开同时还提供一种基于记忆网络的弱监督时域动作定位系统。网络的弱监督时域动作定位系统。网络的弱监督时域动作定位系统。

【技术实现步骤摘要】
基于记忆网络的弱监督时域动作定位方法及系统


[0001]本公开涉及人工智能
,关于智能行为分析,尤其涉及一种基于记忆网络的弱监督时域动作定位方法及系统。

技术介绍

[0002]时域动作定位的目的是找到视频中动作的开始和结束时间,在智能监控、视频摘要、异常检测等领域有着广泛的应用。
[0003]传统的时域动作定位方法通常基于全监督学习,首先利用具有动作起止时间的标注数据来训练模型,然后进行动作定位。但是这样的标注数据昂贵且耗时,限制了时域动作定位的实用性。
[0004]为了减轻对数据的依赖,从而提升应用场景中的拓展性以及效率。基于弱监督学习的时域动作定位算法逐渐受到关注,与全监督方法的性能差距也逐渐缩小。然而,由于训练过程中缺少动作边界的标注,模型趋向于只关注动作的核心片段且容易受到非动作片段的干扰,导致定位不完整以及错误定位。
[0005]因此,如何实现更有效的弱监督时域动作定位是一个亟需解决的技术课题。

技术实现思路

[0006](一)要解决的技术问题
[0007]基于上述问题,本公开提供本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于记忆网络的弱监督时域动作定位方法,包括:对输入的视频进行特征提取,得到针对定位任务的视频特征;构建动作单元记忆库;根据所述视频特征,建模视频内部的时序结构,得到语义增强的特征;读取所述动作单元记忆库的信息并进行维度变换后,应用于所述语义增强的视频特征生成片段级分类结果;以及获取模板相似性性并进行最大池化生成前景注意力权重,再结合所述片段级分类结果确定动作的类别,从而实现基于记忆网络的弱监督时域动作的定位。2.根据权利要求1所述的基于记忆网络的弱监督时域动作定位方法,所述对输入的视频进行特征提取,得到针对定位任务的视频特征,包括:将输入的视频分为多个视频片段;提取每个所述视频片段中的特征;以及获得针对定位任务的视频特征。3.根据权利要求1所述的基于记忆网络的弱监督时域动作定位方法,所述构建动作单元记忆库,包括:预定义多个动作单元模板;以及根据所述多个动作单元模板得到动作单元自适应分类器和用于检索的关键值,完成动作单元记忆库的构建。4.根据权利要求3所述的基于记忆网络的弱监督时域动作定位方法,为了保证记忆库中动作单元模板的有效性引入差异性损失L
d
来确保模板之间的差异性:L
d
=||MM
T

I||
F
;其中,I为单位矩阵,||
·
||
F
为Frobenius范数。5.根据权利要求3所述的基于记忆网络的弱监督时域动作定位方法,分别应用多层感知机和全连接层得到动作单元自适应分类器和用于检索的关键值。6.根据权利要求1所述的基于记忆网络的弱监督时域动作定位方法,根据针对定位任务的视频特征X
e
,引入一个自注意力模块,建模视频内部的时序结构,得到语义增强的特征X
s
:其中,Q为包含视频表象与运动信息的查询值,F、m分别为特征维度和降维尺度参数。7.根据权利要求1所述的基于记忆网络的弱监督时域动作定位方法,通过交叉注意力模块来读取动作单元记忆库中的信息V
O
:其中,K
M
为用于检索的关键值,V
M
为动作单元自适应分类器,对读取的记忆库中的信息V
O
进行维度变换便可得到自适应的片段级别分类器...

【专利技术属性】
技术研发人员:张天柱张勇东罗网吴枫
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1