【技术实现步骤摘要】
基于人体骨架数据和语义关联的零样本行为识别方法
[0001]本专利技术属于视频理解
,具体的说是涉及一种基于人体骨架数据和语义关联的零样本行为识别方法。
技术介绍
[0002]在视频监督以及人机交互等领域,行为识别技术都有重要的应用价值。其在近几年获得了较大的发展,特别是在引入了图卷积技术之后,基于骨架数据的行为识别任务成为了该领域新的热点。但是将已有的网络运用于训练类别之外的行为类别时,若不收集足够的数据样本进行再训练,其最终的识别准确率将会大幅的下降。但是某些行为类别可能因为本身的危险性或者实现难度,造成收集数据样本的成本较高,对行为识别的工业化运用形成阻碍。
[0003]零样本行为识别技术对上述问题进行了抽象。其将数据集中的类别划分为可见类和不可见类。旨在通过使用类别标签作为辅助信息,在使用仅包含可见类的训练集的情况下,得到能够完成对不可见类进行分类识别的分类器。零样本行为识别中较为典型的一种方法是特征生成的方法。该方法使用对抗生成的方式得到一个可以将类别标签的语义特征转换为骨架数据的视觉特征的生成器网络 ...
【技术保护点】
【技术特征摘要】
1.一种基于人体骨架数据和语义关联的零样本行为识别方法,识别方法的实现包括两个阶段,其特征在于:所述零样本行为识别方法包括如下步骤:步骤1:将骨架数据集D1中的类别划分为可见类和不可见类,分别作为训练集和测试集,对骨架数据集D1中的类别标签进行修改,使用现有的单词语义特征提取模型提取数据集中每个类别标签中单词的语义特征,并为每个标签制作对应的掩码矩阵,使用骨架数据集D2对骨架特征提取网络进行预训练,之后使用所述骨架特征提取网络从骨架数据集D1的骨架数据中提取视觉特征用于后续的训练;步骤2:构建阶段1需要使用的对抗生成网络模型和构建阶段2需要使用的分类器网络;步骤3:利用步骤1中得到的语义特征、掩码矩阵和视觉特征对步骤2中的对抗生成网络模型进行训练,所述对抗生成网络模型由特征生成网络和鉴别器网络构成,所述特征生成网络得到可见类标签对应的视觉特征样本;步骤4:将在步骤1中的不可见类数据的语义特征输入到步骤3中训练完成的特征生成网络得到不可见类标签对应的视觉特征样本,利用生成的样本训练分类器网络;步骤5:识别未见类的行为样本时,先使用骨架特征提取网络从中提取视觉特征,然后输入到步骤4中的分类器网络中得到分类结果。2.根据权利要求1所述基于人体骨架数据和语义关联的零样本行为识别方法,其特征在于:所述步骤2中,所述特征生成网络包括语义关联提取模块和特征投影模块且所述语义关联提取模块和特征投影模块串联进行连接,所述鉴别器网络由2个全连接层和1个激活层构成,所述分类器网络由2个全连接层和1个激活层构成。3.根据权利要求2所述基于人体骨架数据和语义关联的零样本行为识别方法,其特征在于:所述对抗生成网络模型的生成过程为:步骤2
‑
1:语义特征和随机噪声拼接后输入到特征生成网络中,并输出对应的视觉特征;步骤2
‑
2:从骨架数据集D1的中提取视觉特征和步骤2
‑
1生成的视觉特征一同输入到鉴别器网络中,鉴别器网络输出0或者1代表对应的视觉特征来自骨架数据还是来自特征生成网络的输出。4.根据权利要求2所述基于人体骨架数据和语义关联的零样本行为识别方法,其特征在于:所述语义关联提取模块由3个全连接层、1个残差连接和1个归一化层构成,所述特征投影模块由卷积神经网络构成,由3个一维卷积层、2个激活层以及3个归一化层构成。5.根据权利要求2所述基于人体骨架数据和语义关联的零样本行为识别方法,其特征在于:步骤3中训练生成特征生成网络时引入特征同化损失函数,所述特征同化损失函数基于三元组损失函数,在特征同化损失函数中,将每个训练批中的提取自骨架数据的相同类别标签的视觉特征相距最大的样本作为正样本,在每个训练批中,将特征生成网络生成的视觉特征中不属于相同类别的其他视觉特征中相距最小的样本作为负样本,此处的距离度量函数采用的欧式距离,最终对抗生成网络的目标函数为:L=αL
gan
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。