基于人体骨架数据和语义关联的零样本行为识别方法技术

技术编号:37505963 阅读:25 留言:0更新日期:2023-05-07 09:42
本发明专利技术是一种基于人体骨架数据和语义关联的零样本行为识别方法,包括:步骤1:使用训练好的骨架特征提取网络从骨架数据中提取视觉特征;步骤2:构建对抗生成网络模型和分类器网络;步骤3:训练对抗生成网络模型进行训练,特征生成网络生成可见类标签对应的视觉特征样本;步骤4:将不可见类数据的语义特征输入到特征生成网络不可见类标签对应的视觉特征样本,训练分类器网络;步骤5:识别未见类的行为样本时,先使用骨架特征提取网络从中提取视觉特征,然后输入到分类器网络中得到分类结果。本发明专利技术有效利用了短语在表征语义时各单词之间的语义关联,改善零样本行为识别中生成器的泛化能力较低的问题,提升分类器训练后对未见类的识别率。类的识别率。

【技术实现步骤摘要】
基于人体骨架数据和语义关联的零样本行为识别方法


[0001]本专利技术属于视频理解
,具体的说是涉及一种基于人体骨架数据和语义关联的零样本行为识别方法。

技术介绍

[0002]在视频监督以及人机交互等领域,行为识别技术都有重要的应用价值。其在近几年获得了较大的发展,特别是在引入了图卷积技术之后,基于骨架数据的行为识别任务成为了该领域新的热点。但是将已有的网络运用于训练类别之外的行为类别时,若不收集足够的数据样本进行再训练,其最终的识别准确率将会大幅的下降。但是某些行为类别可能因为本身的危险性或者实现难度,造成收集数据样本的成本较高,对行为识别的工业化运用形成阻碍。
[0003]零样本行为识别技术对上述问题进行了抽象。其将数据集中的类别划分为可见类和不可见类。旨在通过使用类别标签作为辅助信息,在使用仅包含可见类的训练集的情况下,得到能够完成对不可见类进行分类识别的分类器。零样本行为识别中较为典型的一种方法是特征生成的方法。该方法使用对抗生成的方式得到一个可以将类别标签的语义特征转换为骨架数据的视觉特征的生成器网络。通过该生成器网络就可以使用未见类标签的语义特征得到对应的视觉特征,解决了零样本情况下因缺乏未见类样本而无法训练分类器的问题。
[0004]在上述方法中,类别标签作为辅助信息起到了关键的作用。和图像识别任务的类别标签不同,行为识别任务的类别标签往往是由短语或者句子组成的。但是在现有的零样本行为识别的工作中对类别标签的关注并不多。目前大量工作直接将短语中的每个单词的语义特征进行平均,得到一个一维张量作为该类别的语义特征。这种简单的池化处理方式模糊了在特征投影过程中每个单词的作用,导致生成器的生成结果存在类内距离和类间距离相近的现象,造成后续训练得到的分类器分类准确率较低。

技术实现思路

[0005]为了解决上述技术问题,本专利技术提供了一种基于人体骨架数据和语义关联的零样本行为识别方法,该方法通过预训练的网络提取骨架数据的视觉特征和类别标签的语义特征,然后输入对抗生成网络进行训练;之后使用训练完成的特征生成网络生成未见类的视觉特征用于训练分类器网络;其中,本方法保留了类别标签中各单词的语义特征,特征生成网络将提取类别标签中各单词的语义关联特征,最终转化为视觉特征;同时,引入特征同化损失优化特征生成网络的任务目标,以此提高该网络的泛化能力,缓解其生成结果中存在的类内距离和类间距离相近的问题,进而提高最终得到的分类器的识别准确率。
[0006]为了达到上述目的,本专利技术是通过以下技术方案实现的:
[0007]本专利技术是一种基于人体骨架数据和语义关联的零样本行为识别方法,识别方法的实现包括两个阶段,所述识别方法包括如下步骤:
[0008]步骤1:将骨架数据集D1中的类别划分为可见类和不可见类,分别作为训练集和测试集,对骨架数据集D1中的类别标签进行修改,使用现有的单词语义特征提取模型提取数据集中每个类别标签中单词的语义特征,并为每个标签制作对应的掩码矩阵,使用骨架数据集D2对骨架特征提取网络进行预训练,之后使用所述骨架特征提取网络从骨架数据集D1的骨架数据中提取视觉特征用于后续的训练;
[0009]步骤2:构建阶段1需要使用的对抗生成网络模型和构建阶段2需要使用的分类器网络。所述对抗生成网络模型由特征生成网络和鉴别器网络构成,其中所述特征生成网络包括语义关联提取模块和特征投影模块且所述语义关联提取模块和特征投影模块串联进行连接,所述鉴别器网络由2个全连接层和1个激活层构成,所述分类器网络由2个全连接层和1个激活层构成。所述语义关联提取模块由3个全连接层、1个残差连接和1个归一化层构成,所述特征投影模块由卷积神经网络构成,由3个一维卷积层、2个激活层以及3个归一化层构成。
[0010]其中:对抗生成网络模型的生成过程为:
[0011]步骤2

1:语义特征和随机噪声拼接后输入到特征生成网络中,并输出对应的视觉特征;
[0012]步骤2

2:从骨架数据集D1的中提取视觉特征和步骤2

1生成的视觉特征一同输入到鉴别器网络中,鉴别器网络输出0或者1代表对应的视觉特征来自骨架数据还是来自特征生成网络的输出。
[0013]步骤3:此步骤为阶段1,利用步骤1中得到的语义特征、掩码矩阵和视觉特征对步骤2中的对抗生成网络模型进行训练,特征生成网络生成可见类标签对应的视觉特征样本。
[0014]训练生成特征生成网络时引入特征同化损失函数,所述特征同化损失函数基于三元组损失函数,在特征同化损失函数中,将每个训练批中的提取自骨架数据的相同类别标签的视觉特征相距最大的样本作为正样本,在每个训练批中,将特征生成网络生成的视觉特征中不属于相同类别的其他视觉特征中相距最小的样本作为负样本,此处的距离度量函数采用的欧式距离,最终对抗生成网络的目标函数为:
[0015]L=αL
gan
+(1

α)L
assimilation
[0016]其中,α是用于平衡对抗生成损失和特征同化损失之间关系的平衡因子;L
gan
代表的是对抗生成损失,其表达式为:
[0017][0018]在该表达式中,D(
·
)表示鉴别器网络的输出,G(
·
)表示特征生成网络的输出;
[0019]L
assimilation
代表特征同化损失,其具体的表达式为:
[0020]L=max(d(a,p)

d(a,n)+margin,0)
[0021]在该表达式中,margin为大于0的常数,d为欧式距离度量函数,d(a,p)代表相同类别标签的生成视觉特征与提取自骨架数据的视觉特征的最大距离,d(a,n)代表生成的视觉特征中不属于相同类别的其他视觉特征的最小距离。
[0022]步骤4:此步骤为阶段2,将在步骤1中的不可见类数据的语义特征输入到步骤3中训练完成的特征生成网络不可见类标签对应的视觉特征样本,利用生成的样本训练分类器网络,所述步骤4中分类器网络训练采用交叉熵损失函数。
[0023]步骤5:识别未见类的行为样本时,先使用骨架特征提取网络从中提取视觉特征,
然后输入到步骤4中的分类器网络中得到分类结果。
[0024]本专利技术的进一步改进在于:对抗生成网络模型的训练采用对抗的方式进行,具体包括如下步骤:
[0025]步骤3

1:冻结特征生成网络的模型权重参数,对鉴别器网络的权重参数进行反向传播更新;
[0026]步骤3

2:然后冻结鉴别器网络的权重参数,对特征生成网络的权重参数进行反向传播更新;
[0027]步骤3

3:重复上述步骤直到完成预设的执行次数。
[0028]本专利技术的进一步改进在于:步骤5具体包括如下步骤:
[0029]步骤5

1:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人体骨架数据和语义关联的零样本行为识别方法,识别方法的实现包括两个阶段,其特征在于:所述零样本行为识别方法包括如下步骤:步骤1:将骨架数据集D1中的类别划分为可见类和不可见类,分别作为训练集和测试集,对骨架数据集D1中的类别标签进行修改,使用现有的单词语义特征提取模型提取数据集中每个类别标签中单词的语义特征,并为每个标签制作对应的掩码矩阵,使用骨架数据集D2对骨架特征提取网络进行预训练,之后使用所述骨架特征提取网络从骨架数据集D1的骨架数据中提取视觉特征用于后续的训练;步骤2:构建阶段1需要使用的对抗生成网络模型和构建阶段2需要使用的分类器网络;步骤3:利用步骤1中得到的语义特征、掩码矩阵和视觉特征对步骤2中的对抗生成网络模型进行训练,所述对抗生成网络模型由特征生成网络和鉴别器网络构成,所述特征生成网络得到可见类标签对应的视觉特征样本;步骤4:将在步骤1中的不可见类数据的语义特征输入到步骤3中训练完成的特征生成网络得到不可见类标签对应的视觉特征样本,利用生成的样本训练分类器网络;步骤5:识别未见类的行为样本时,先使用骨架特征提取网络从中提取视觉特征,然后输入到步骤4中的分类器网络中得到分类结果。2.根据权利要求1所述基于人体骨架数据和语义关联的零样本行为识别方法,其特征在于:所述步骤2中,所述特征生成网络包括语义关联提取模块和特征投影模块且所述语义关联提取模块和特征投影模块串联进行连接,所述鉴别器网络由2个全连接层和1个激活层构成,所述分类器网络由2个全连接层和1个激活层构成。3.根据权利要求2所述基于人体骨架数据和语义关联的零样本行为识别方法,其特征在于:所述对抗生成网络模型的生成过程为:步骤2

1:语义特征和随机噪声拼接后输入到特征生成网络中,并输出对应的视觉特征;步骤2

2:从骨架数据集D1的中提取视觉特征和步骤2

1生成的视觉特征一同输入到鉴别器网络中,鉴别器网络输出0或者1代表对应的视觉特征来自骨架数据还是来自特征生成网络的输出。4.根据权利要求2所述基于人体骨架数据和语义关联的零样本行为识别方法,其特征在于:所述语义关联提取模块由3个全连接层、1个残差连接和1个归一化层构成,所述特征投影模块由卷积神经网络构成,由3个一维卷积层、2个激活层以及3个归一化层构成。5.根据权利要求2所述基于人体骨架数据和语义关联的零样本行为识别方法,其特征在于:步骤3中训练生成特征生成网络时引入特征同化损失函数,所述特征同化损失函数基于三元组损失函数,在特征同化损失函数中,将每个训练批中的提取自骨架数据的相同类别标签的视觉特征相距最大的样本作为正样本,在每个训练批中,将特征生成网络生成的视觉特征中不属于相同类别的其他视觉特征中相距最小的样本作为负样本,此处的距离度量函数采用的欧式距离,最终对抗生成网络的目标函数为:L=αL
gan

【专利技术属性】
技术研发人员:孙宁朱良伟李响
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1