当前位置: 首页 > 专利查询>南京大学专利>正文

时序边界检测方法及时序感知器技术

技术编号:33530692 阅读:14 留言:0更新日期:2022-05-19 02:00
时序边界检测方法及时序感知器,基于变换解码器结构和注意力机制,建立通用的无类别时序动作检测模型,检测模型的编码器中引入少量隐特征查询量,通过交叉注意力机制将输入特征压缩到固定维度,并使用变换解码器对特征进行解码,实现通用无类别时序边界的稀疏检测。本发明专利技术通过特征压缩,有效解决了长视频的时序冗余问题,并将二次模型的复杂度降低到线性级别;构建边界查询量和上下文查询量这两种隐特征查询量,以相应处理视频中语义不连贯的边界区域和连贯的上下文区域,充分利用视频的语义结构;提出基于交叉注意力计算的对齐损失函数,使网络快速稳定收敛;使用变换解码器稀疏编码边界位置,避免复杂后处理,提高模型泛化性能。性能。性能。

【技术实现步骤摘要】
时序边界检测方法及时序感知器


[0001]本专利技术属于计算机软件
,涉及视频时序边界检测,为一种时序边界检测方法及时序感知器。

技术介绍

[0002]由于互联网上的视频数据爆炸式地增长,视频内容理解成为计算机视觉领域的重要问题。在过往的文献中,对长视频理解的探索仍然不足。无类别时序边界检测是一种有效的弥合长视频和短视频理解之间差距的技术,其目的在于将长视频分割为一系列视频片段。无类别时序边界是由于语义不连续而自然产生的时序边界,它不由任何预先定义的语义类别所约束,现有数据集中包括子动作级、事件级和场景级等等不同粒度的无类别时序边界。对于不同粒度的无类别时序边界的检测,需要不同层次的信息来获取不同尺度下的时序结构和上下文关系。
[0003]目前,由于时序边界语义和粒度的差异,无类别时序边界检测的研究分为多个不同的任务。时序动作分割任务的目标是检测将一个动作实例分割为多个不同的子动作片段的子动作级无类别时序边界。通用时间边界检测旨在定位事件级别的无类别时序边界,即动作/主题/环境变化的时刻。电影场景分割检测场景级别的无类别时序边界,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.时序边界检测方法,其特征是构建一个无类别时序边界检测网络对视频进行时序边界检测,检测网络包括骨干网络和检测模型,实现方式如下:1)由骨干网络生成检测样例:对视频间隔采样得到视频图像序列以每一帧生成一个视频段,第i段视频段为由第i帧图像f
i
的前后连续k帧组成的图像序列,由骨干网络对输入的视频段生成视频特征和连续性打分F
i
和S
i
分别为视频段i的RGB特征和连续性打分;2)由检测模型基于视频特征F和连续性打分S进行无类别时序动作检测,所述检测模型包括如下配置:2.1)编码器:编码器E包括N
e
层串联的变换解码层,每层包含一个多头自注意力层、一个多头交叉注意力层和一个线性映射层,自注意力层、交叉注意力层及线性映射层分别带有一个残差结构,对编码器引入M个隐特征查询量Q
e
,基于连续性打分S对视频特征F进行降序排序后输入编码器,编码器将排序后的视频特征压缩为M帧的压缩特征H,初始压缩特征H0为0,在第j层变换解码层,隐特征查询量Q
e
与当层的压缩特征H
j
相加,经过自注意力层及其残差结构,在交叉注意力层和重排序的视频特征交互,再经过残差结构

线性映射层

残差结构变换后得到压缩特征H
j+1
,j∈[0,(N
e

1)],通过堆叠的N
e
个编码层后,实现输入特征的压缩和编码,得到压缩特征其中,隐特征查询量的生成为:隐特征查询量Q
e
被分为M
b
个边界查询量和M
c
个上下文查询量,随机初始化,在训练检测模型的过程随训练样本学习生成;边界查询量对应处理视频特征中的边界区域特征,上下文查询量对应处理视频特征中的上下文区域特征,视频特征中重排序后前M
b
个特征为边界区域特征,其他为上下文特征;2.2)解码器:解码器D包括N
d
层串联的解码层,每层包含一个多头自注意力层、一个多头交叉注意力层和一个线性映射层,自注意力层、交叉注意力层及线性映射层分别带有一个残差结构;对于编码器获得的压缩特征H,解码器通过变换解码器结构进行时序边界点解析,解码器定义N
p
个提名查询量Q
d
,提名查询量Q
d
与隐特征查询量一样,随机初始化后再训练中学习生成,并初始化边界提名B0为0,,在第j层,提名查询量Q
d
与边界提名B
j
相加,经过自注意力层和一次残差结构,在交叉注意力层和压缩特征H交互,经过残差结构

线性映射层

残差结构变换后得到更新后的边界提名B
j+1
;通过堆叠的N
d
个解码层后,实现压缩特征的解析,得到时序边界提名表示2.3)时序无类别边界的生成与打分:对于获得的时序边界提名表示B,送入两个不同的全连接层分支:定位分支和分类分支,两个分支分别用于输出时序无类别边界的时刻和置信度分数;2.4)分配训练标签:采用严格的一对一训练标签匹配策略:根据定义的匹配代价C,利用匈牙利算法得到一组最优的一对一匹配,每个被分配到一个无类别边界真值的预测都获得正样本标签,其对应的边界真值为训练目标;匹配代价C由位置代价和分类代价两部分组成,位置代价基于预测时刻和边界真值时刻的距离绝对值定义,分类代价基于预测置信度定义;2.5)时序无类别边界的提交:生成一系列的时序无类别边界后,通过置信度分数阈值
γ筛选出最可信的时序无类别边界时刻,提交以进行后续性能度量;3)训练阶段:对配置的模型采用训练样例进行训练,使用交叉熵、L1距离和log函数作为损失函数,使用AdamW优化器,通过反向传播算法来更新网络参数,不断重复步骤1)和步骤2),直至达到迭代次数;4)检测:将待测试数据的视频特征序列和连续性打分输入到训练完成的检测模型中,生成时序无类别边界时刻及打分,再通过2.3)的方法,得到用于性能度量的时序无类别边界时刻序列。2.根据权利要求1所述的时序边界检测方法,其特征是训练检测模型时,对齐隐特征查询量与视频特征:边界查询量通过对齐损失函数和视频特征的边界区域特征对齐,对齐损失函数基于最后一层交叉注意力图计算,利用边界查询量和边界区域特征数量一致的...

【专利技术属性】
技术研发人员:王利民谈婧王雨虹武港山
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1