一种基于层级多视角的自监督动作识别方法及装置制造方法及图纸

技术编号:35138928 阅读:19 留言:0更新日期:2022-10-05 10:14
本发明专利技术公开了一种基于层级多视角的自监督动作识别方法及装置,该方法包括:先是对比学习的预训练阶段,原始数据通过数据增强和重组分别通过key编码器和query编码器提取特征构造正负样本。特征提取时通过视角生成模块得到不同尺度的子视角,分别通过Transformer编码、聚合、拼接后得到时间特征、空间特征以及两者的组合:时空特征。时空特征通过对比损失达到拉近正样本、推远负样本的目标以获取特征表示能力。通过时间特征和空间特征间的一致性损失拉近不同视角间的特征距离。本发明专利技术是骨架动作识别领域一种新颖的层级化视角的建模方法,可以深入挖掘不同视角间的互补信息,能够实现比现有方法性能更好的骨架动作识别。比现有方法性能更好的骨架动作识别。比现有方法性能更好的骨架动作识别。

【技术实现步骤摘要】
一种基于层级多视角的自监督动作识别方法及装置


[0001]本专利技术属于动作识别
,具体涉及一种基于层级多视角的自监督动作识别方法及装置。

技术介绍

[0002]动作识别作为计算机视觉子任务之一,出现在众多计算机视觉应用场景中,广泛应用于视频监控、人机交互、虚拟现实等诸多领域,对社会智能化发展起到了不可或缺的作用。
[0003]动作识别目的一般是在一段切割好的视频片段中识别出其中人物所做的动作类别。传统深度学习动作识别方法通过将大量视频及其标签输入模型提取特征,然后根据特征预测分类并与真实标签对比进而优化模型。其数据源的格式一般包括普通RGB视频、深度图视频以及人体关键点坐标组成的骨架序列形式的视频。骨架序列相较于其他数据源信息更紧凑、冗余量少,在视点和外观的变化方面具有较好的鲁棒性。
[0004]传统上,基于深度学习的骨架序列动作识别方法都依赖于大量的标签数据,然而这种标签数据是非常昂贵的,需要耗费大量的人力物力。自监督方法可以自动构建监督信号,挖掘数据中潜在的特征信息用于下游各项任务,有效减少成本消耗。现在基于骨架序列的自监督方法研究主要有生成式和判别式两类。生成式方法主要通过重建原始数据或某个属性来挖掘其内在特征,判别式方法主要是通过对比学习等技术以达到特征聚类的目的。
[0005]目前自监督方法特别是以对比学习为代表的判别式方法在基于骨架序列的动作识别研究领域还处于不成熟阶段,现有方法存在以下一些不足:
[0006]其一、骨架序列数据一般是包括时序和空间两个方面的信息,现有的方法会尝试从不同角度重构数据以关注不同的信息,一般将这种从多个角度出发的方法称为多视角(multi

view)方法。但是这种多视角存在的互补信息是有限的,同时不同视角一般是人工设计的,无法探索更丰富的跨视角信息。
[0007]其二、现有的多视角方法对不同视角下的信息交互比较薄弱,没有充分地利用不同视角下的高级语义相似性。

技术实现思路

[0008]为了解决现有方法的不足,本专利技术在对比学习的框架下,将在建模序列型数据方面表现优异的Transformer引入到自监督动作识别中,使用自注意力机制刻画骨架关键点之间、序列帧之间的关系,通过提出的可学习的视角生成模块,在时间、空间视角基础上生成不同尺度的派生视角,同时针对跨视角的高级语义一致性,提出了对比一致性损失函数作为训练时的约束机制,深入挖掘原始数据中存在的时空信息,实现了高性能的基于骨架序列的动作识别方法及装置。
[0009]本专利技术的目的是通过以下技术方案实现的:
[0010]根据本说明书的第一方面,提供一种基于层级多视角的自监督动作识别方法,包
括以下步骤:
[0011]S1,对原始的无标签的骨架序列进行预处理,得到视角归一化骨架序列;
[0012]S2,将视角归一化骨架序列经过两个随机的同族数据增强,得到增强骨架序列;
[0013]S3,将增强骨架序列分别输入到query编码器、key编码器进行编码,分别得到对应的时空特征,各个时空特征均包含原始的无标签的骨架序列的时间特征和空间特征;
[0014]S4,将步骤S3得到的时空特征均进行对比损失计算,并对步骤S3得到的原始的无标签的骨架序列的时间特征和空间特征均进行一致性损失计算,并将对比损失和一致性损失计算结果相加,得到总损失函数;
[0015]S5,使用总损失函数,以端对端的方式进行自监督学习,构建预训练模型;
[0016]S6,使用预训练模型中的query编码器,并在query编码器后加入一个由全连接层组成的分类器,得到由编码器和分类器构成的下游动作识别任务训练模型;
[0017]S7,将带标签的骨架序列输入到所述下游动作识别任务训练模型中,使用下游动作识别任务训练模型中的编码器从带标签的骨架数据中提取特征,将提取的特征通过分类器进行分类,将分类的结果使用交叉熵损失函数进行端到端的训练,构建动作识别模型;
[0018]S8,使用动作识别模型进行动作识别。
[0019]进一步地,在所述步骤S1具体包括以下步骤:
[0020]S11,将所有原始的无标签的骨架序列修剪为统一的固定长度,得到原始统一固定长度骨架序列;
[0021]S12,先对每帧中原始统一固定长度骨架序列的进行移动,使定义的原始统一固定长度骨架序列中心位于坐标系原点,然后旋转原始统一固定长度骨架序列,使人体脊柱平行于三维坐标系的Z轴以及肩膀平行于三维坐标系的X轴,得到视角归一化骨架序列。
[0022]进一步地,所述步骤S2具体包括以下步骤:
[0023]使用不同随机数对视角归一化骨架序列进行两次数据增强,每次数据增强包括空间增强和时间增强;
[0024]其中,空间增强包括姿态增强和节点抖动,姿态增强随机改变坐标系下视角归一化骨架序列的视点以及定义的观测位置间的距离,而节点抖动是将节点随机移动到原位置附近一定范围内的某点,但不改变原有的拓扑关系;
[0025]时间增强是先随机选择一个开始帧,然后以随机的间隔对视角归一化骨架序列进行采样。
[0026]进一步地,所述步骤S3中query编码器和key编码器获得时空特征中原始的无标签的骨架序列的时间特征均具体包括以下步骤:
[0027]S31,对增强骨架序列重组得到不同视角下的骨架数据,得到增强骨架序列的帧视角和节点视角形式,其中,帧视角是增强骨架序列中单帧骨架所有信息为序列元素,而节点视角是增强骨架序列中单个节点所有信息为序列元素;
[0028]S32,先提取序列元素中存在的时间特征,将帧视角通过全连接层将低维数据映射到高维嵌入空间,分离笼统的特征,得到帧视角嵌入层特征;
[0029]S33,通过视角生成模块对帧视角嵌入层特征进行重组而得到第一级的片段视角,其中,视角生成模块包括一维卷积神经网络、层归一化、线性整流激活函数和一维最大池化,并使用视角生成模块对第一级的片段视角重组得到第二级的片段视角,将帧视角称为
父视角,不同级片段视角称为子视角,父视角和不同级的子视角组成了层级化的时间视角;
[0030]S34,先对不同的时间视角的增强骨架序列添加位置编码,得到不同的位置编码时间视角;然后分别通过Transformer编码不同的位置编码时间视角,得到不同的时间视角特征,其中,Transformer的自注意力计算发生在时间维度上;
[0031]再通过一维最大池化聚合不同的时间视角特征,得到不同的视频级特征信息;
[0032]最后将不同的视频级特征信息拼接成整个层级化时间特征。
[0033]进一步地,所述步骤S3中query编码器和key编码器获得时空特征中原始的无标签的骨架序列的空间特征均具体包括以下步骤:
[0034]先通过视角生成模块对节点视角进行重组,得到不同级的部件视角,其中,视角生成模块包括一维卷积神经网络、层归一化、线性整流激活函数和一维最大池化,然后对不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于层级多视角的自监督动作识别方法,其特征在于,包括以下步骤:S1,对原始的无标签的骨架序列进行预处理,得到视角归一化骨架序列;S2,将视角归一化骨架序列经过两个随机的同族数据增强,得到增强骨架序列;S3,将增强骨架序列分别输入到query编码器、key编码器进行编码,分别得到对应的时空特征,各个时空特征均包含原始的无标签的骨架序列的时间特征和空间特征;S4,将步骤S3得到的时空特征均进行对比损失计算,并对步骤S3得到的原始的无标签的骨架序列的时间特征和空间特征均进行一致性损失计算,并将对比损失和一致性损失计算结果相加,得到总损失函数;S5,使用总损失函数,以端对端的方式进行自监督学习,构建预训练模型;S6,使用预训练模型中的query编码器,并在query编码器后加入一个由全连接层组成的分类器,得到由编码器和分类器构成的下游动作识别任务训练模型;S7,将带标签的骨架序列输入到所述下游动作识别任务训练模型中,使用下游动作识别任务训练模型中的编码器从带标签的骨架数据中提取特征,将提取的特征通过分类器进行分类,将分类的结果用交叉熵损失函数进行端到端的训练,构建动作识别模型;S8,使用动作识别模型进行动作识别。2.根据权利要求1所述的基于层级多视角的自监督动作识别方法,其特征在于,在所述步骤S1具体包括以下步骤:S11,将所有原始的无标签的骨架序列修剪为统一的固定长度,得到原始统一固定长度骨架序列;S12,先对每帧中原始统一固定长度骨架序列的进行移动,使定义的原始统一固定长度骨架序列中心位于坐标系原点,然后旋转原始统一固定长度骨架序列,使人体脊柱平行于三维坐标系的Z轴以及肩膀平行于三维坐标系的X轴,得到视角归一化骨架序列。3.根据权利要求1所述的基于层级多视角的自监督动作识别方法,其特征在于,所述步骤S2具体包括以下步骤:使用不同随机数对视角归一化骨架序列进行两次数据增强,每次数据增强包括空间增强和时间增强;其中,空间增强包括姿态增强和节点抖动,姿态增强随机改变坐标系下视角归一化骨架序列的视点以及定义的观测位置间的距离,而节点抖动是将节点随机移动到原位置附近一定范围内的某点,但不改变原有的拓扑关系;时间增强是先随机选择一个开始帧,然后以随机的间隔对视角归一化骨架序列进行采样。4.根据权利要求1所述的基于层级多视角的自监督动作识别方法,其特征在于,所述步骤S3中query编码器和key编码器获得时空特征中原始的无标签的骨架序列的时间特征均具体包括以下步骤:S31,对增强骨架序列重组得到不同视角下的骨架数据,得到增强骨架序列的帧视角和节点视角形式,其中,帧视角是增强骨架序列中单帧骨架所有信息为序列元素,而节点视角是增强骨架序列中单个节点所有信息为序列元素;S32,先提取序列元素中存在的时间特征,将帧视角通过全连接层将低维数据映射到高维嵌入空间,分离笼统的特征,得到帧视角嵌入层特征;
S33,通过视角生成模块对帧视角嵌入层特征进行重组而得到第一级的片段视角,其中,视角生成模块包括一维卷积神经网络、层归一化、线性整流激活函数和一维最大池化,并使用视角生成模块对第一级的片段视...

【专利技术属性】
技术研发人员:董建锋孙圣凯陈书界王勋刘宝龙蔡佳航杨文武
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1