【技术实现步骤摘要】
基于锚自由和长时注意力感知的视频交互动作检测方法
[0001]本专利技术属于计算机视觉和模式识别
,涉及基于锚自由和长时注意力感知的视频交互动作检测方法。
技术介绍
[0002]在视频理解中,时序动作检测是一项重要而又具有挑战性的任务;随着深度学习技术的发展,时序动作检测任务取得了很大的进步,其根本目标是识别视频中各段动作实例的时序边界并判定动作的类别,这一过程可以分为视频特征提取、动作时域候选生成和动作识别三个步骤。其中,动作时域候选的生成是决定时序动作检测算法性能的关键;动作时域候选生成的任务目标是在一维时序帧序列中判定各段动作实例的时域边界。目前的动作时域候选生成方法可大致分为三类,一类基于多种尺度的观察窗生成时域候选,称为锚点机制;另一类动作得分方法基于动作概率曲线以界定动作时域候选的时域边界。最后是每一时序点生成一个动作提案的锚自由方法;锚点机制通过人为设定的大量预定义候选框以达到覆盖正确实例的目的,动作得分方法则通过穷举排列组合方式找到最优拟合实例,二者均取得了一定效果但二者均存在着模型参数或超参数过量导致 ...
【技术保护点】
【技术特征摘要】
1.一种基于锚自由和长时注意力感知的视频交互动作检测方法,其特征在于,包括以下步骤:步骤1:对原始视频进行特征编码提取;步骤1
‑
1:使用在Kinetics数据集训练好的I3D模型提取3D双流特征,即RGB流和光流特征;提取视频的RGB特征序列为,其中T表示特征时间维度,C表示特征通道维度,H表示特征宽,W表示特征高;步骤1
‑
2:通过卷积操作将双流特征的H和W维度压缩形成二维特征,将其作为金字塔特征的基本单元;步骤2:搭建金字塔模块,将双流视频特征编码分别输如到金字塔结构中,手动为不同粒度特征进行位置编码,获得多层级的特征表示;步骤2
‑
1:构建金字塔模块,将特征作为金字塔底部特征,利用多个时间维度卷积核合并时间维度,并浓缩通道维度信息,得到多级金字塔特征,l表示最底层,n代表除去金字塔底层的层数;步骤2
‑
2:通过设计位置嵌入函数手动为时间序列中的每个节点嵌入带有前后顺序的位置信息,为金字塔特征每一层级嵌入位置信息;步骤3:构建长时动态过去未来注意力模块,将带有位置信息的双流多级金字塔特征作为输入,动态强化重要信息,弱化无关信息;步骤4:构建粗粒度预测与优化模块,融合双流输出并消除冗余得到最终结果。2.根据权利要求1所述的基于锚自由和长时注意力感知的视频交互动作检测方法,其特征在于,所述步骤3具体步骤如下:步骤3
‑
1:将带有位置信息的任意一层RGB或光流金字塔特征每个时间片段的内容映射成一个维度向量,使具有形状;利用注意力模块捕获中任意两个时间位置之间的相关性,计算特征的任意两个位置之间的关系,动态注意力模块定义如下:其中为三个映射函数,i和j代表任意两位置,与为金字塔同级特征中任意两个时间点的特征,其中对进行映射并保持其原有维度,对进行映射并保留其原有维度,表示对特征进行转置,使特征序列中任意两点之间建立关系,为控制两位置点之间是否有关的指示函数,其被初始化为两部分:为控制两位置点之间是否有关的指示函数,其被初始化为两部分:;
步骤3
‑
2:将更新后的分为两部分和,并分别与初始特征加权,然后按通道维度拼接;再将前后文关系映射到通道维度得到特征,经过池化和...
【专利技术属性】
技术研发人员:高赞,吴天奇,马述杰,谭文,陶瑞涛,张蕊,聂礼强,
申请(专利权)人:山东大学青岛海尔智能技术研发有限公司泰华智慧产业集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。