用于人类行为识别的深度联合结构化和结构化学习方法技术

技术编号:15618361 阅读:166 留言:0更新日期:2017-06-14 03:58
一种用于人类行为识别的深度联合结构化和结构化学习的方法,包括以下步骤:1)构造联合结构和结构公式化;2)使用空间网络从图像中的人体区域提取深层卷积神经网络特征,将空间网络的fc6层的输出作为深度特征,使用梯度直方图和光流直方图特征来进一步增强特征表示;CNN,HOG和HOF特征被连接以表示图像中的个人行为或交互关系,使用这种特征为每个数据集训练两个线性支持向量机分类器,使用组合特征来计算公式(1)中的联合特征;3)训练模型的参数;4)训练和预测中的相关推理,在训练的每次迭代期间,针对每个训练示例解决损失增强推理。本发明专利技术适用于多个行为类别的图像、能够识别交互行为。

【技术实现步骤摘要】
用于人类行为识别的深度联合结构化和结构化学习方法
本专利技术属于计算机视觉中的行为识别领域,涉及一种人类的行为识别方法。
技术介绍
识别图像或视频中的人类行为在计算机视觉中是一个基本的问题,这在许多应用如运动视频分析,监控系统和视频检索中至关重要。最近的工作中,深度学习明显提高了行为识别的性能。然而,这些工作不适用于处理包含多人互动的数据。首先,他们专注于分给每个图像一个行为标签,这不适用于包含多个行为类别的图像。第二,他们忽视了人之间的相互关系为识别复杂的人类活动像握手,战斗和足球比赛等提供了重要的语境信息。
技术实现思路
为了克服已有人类的行为识别方式的无法适用于多个行为类别的图像、无法识别交互行为的不足,本专利技术提供了一种适用于多个行为类别的图像、能够识别交互行为的用于人类行为识别的深度联合结构化和结构化学习方法。本专利技术解决其技术问题所采用的技术方案是:一种用于人类行为识别的深度联合结构化和结构化学习的方法,所述方法包括以下步骤:1)构造联合结构和结构公式化假设有一组n个训练样本I表示一张图像,a是图像中所有人的行为标签的集合;如果图像包含m个个体,则a=[a1,…,am],矩阵E=(eij)∈{0,1}m×m是一个严格的上三角矩阵,表示图像中所有个体的相互关系结构;eij=0意味着在人i和人j之间没有交互,而eij=1指示人i和人j彼此交互;为了预测a和E,最大化下面的潜在函数:这里w=[w0,w1,w2]T是训练期间要学习的模型参数,函数φ(·),μ(·)和ψ(·)用于计算三种类型的联合特征,φ给出了图像和行为标签的联合特征;μ计算所述图像和所述交互标签e的联合特征;ψ输出图像和两个个体的行为标签a的联合特征表示;2)特征表示使用空间网络从图像中的人体区域提取深层卷积神经网络CNN特征,将空间网络的fc6层的输出作为深度特征,使用梯度直方图HOG和光流直方图特征HOF来进一步增强特征表示;CNN,HOG和HOF特征被连接以表示图像中的个人行为或交互关系,使用这种特征为每个数据集训练两个线性支持向量机分类器,一个用于分类个人行为,另一个用于分类交互关系,使用组合特征来计算公式(1)中的联合特征,为此,计算这里dα,d∈是用训练好的SVM分类器分类包含个人行为和交互关系得到的决策值表示的向量,并且所有运算符表示基于向量的元素计算;sα(a)表示一个人的行为为a的判别分数。s∈(e)表示1两个人有交互的判别分值或不在交互的分值,公式(1)中的联合特征由下式定义:φ(I,a)=1α(a)·Sα(a)(4)μ(I,a)=1∈(e)·S∈(e)(5)ψ(I,ai,aj)=1τ(ai,aj,pi,pj,rij)(6)这里1α(a)∈{0,1}a是指示符向量,在位置a时取值1,,其他位置取0的。同样,1∈(e)在位置e取1,在别处取0,1τ(·)在索引位置ai,aj,pi,pj,rij时取1,其中pi,pj表示人i和人j的姿势,rij表示人j与人i的相对位置;为了计算rij,将围绕人j的区域划分为六个子区域,并且每个子区域被分配一个相对位置,rij是包围边界框i的中心的子区域的ID;3)训练模型的参数给定n个训练样本,使用max-margin-style公式进行训练:这里ξ表示松弛变量,C是确定增加模型复杂性和减少对训练数据的不正确预测之间的权衡的常数;标签成本,即不正确预测的惩罚由下式给出:其中δ(·)是指示功能,如果测试条件为真则给出1,否则输出0;4)训练和预测中的相关推理在训练的每次迭代期间,针对每个训练示例解决以下损失增强推理:由于潜在函数F的表达,成本项Δ被吸收到公式(1)中的两个一元项中,因此,问题(10)与优化是同质的:进一步,所述步骤4)中,交替搜索标签空间和结构空间,在每次迭代期间,算法依次执行以下两个步骤:4.1)固定结构并通过循环信任传播解决剩余问题,以找到的解;4.2)固定标签并解决剩余的整数线性规划ILP问题(11),找到的解;其中a*表示在第一步骤中发现的解,向(11)中添加两种类型的约束,这导致另外两个ILP问题:其中||Z||0是Z的L0范数;(11),(12),(13)分别是没有约束的,最大边数约束和节点度约束的ILP问题,分别用ILP-NoC,ILP-MNE和ILP-NDC表示;对于每对(i,j)i,j∈{1,…,m},i<j,考虑输出如果V0>V1,设置eij=0,否则把(i,j)放到候选队列中;接下来,根据候选的V1值以降序对数组进行排序,然后从头到尾访问这个数组,对于当前对(s,t),如果在ILP-NDC中没有违反约束,设置est=1;否则设置est=0。本专利技术提出一个简单但有效的框架,以有监督的方式,来联合学习人类互动结构和结构化标签。为此,通过深层神经网络学习特征表达式来表示个人行为和交互行为,并提出了一种高效的推理算法来估计标签和图形结构。本专利技术的有益效果主要表现在:适用于多个行为类别的图像、能够识别交互行为。具体实施方式下面对本专利技术作进一步描述。一种用于人类行为识别的深度联合结构化和结构化学习的方法,包括以下步骤:1)构造联合结构和结构公式化假设有一组n个训练样本这里I表示一张图像,a是图像中所有人的行为标签的集合。如果图像包含m个个体,则a=[a1,…,am]。矩阵E=(eij)∈{0,1}m×m是一个严格的上三角矩阵,表示图像中所有个体的相互关系结构。具体地,eij=0意味着在人i和人j之间没有交互,而eij=1指示人i和人j彼此交互。事实上,a和E可以被认为是对人类活动的直接描述。通过这种表示,识别系统不仅能够回答问题1)他们在做什么,而且能够回答问题2)它们之间的相互作用关系是什么。为了预测a和E,最大化下面的潜在函数:这里w=[w0,w1,w2]T是训练期间要学习的模型参数。函数φ(·),μ(·)和ψ(·)用于计算三种类型的联合特征。φ给出了观察信息(即图像)和行为标签的联合特征;μ计算所述图像和所述交互标签e的联合特征;ψ输出图像和两个个体的行为标签a的联合特征表示。在该公式中,任何成对特征可以通过将二进制变量eij打开(eij=1或关闭(eij=0)来包括或排除。直观地,从上述模型中排除成对项(通过设置e=0)表示相关人没有彼此交互。包括这样的项不是信息性的,并且将使模型的训练复杂化。这个模型的目的是获得行为标签和交互关系的联合优化。例如,如果知道人u和人v正在交互,将他们的行为标签预测为(握手-握手)而不是(握手-吻)更合理。公式(1)在两个方面表现新颖。首先,添加新项(即第二项)来促进交互结构的学习。这种简单的修改使得能够更好地识别个人行为和交互关系,部分是因为与之前仅使用高级特征的方法相比,它结合高级信息(即公式(1)中的第三项)和低级特征(即第二项)来明确地估计结构。第二,用深层卷积神经网络计算联合特征,其能力在人类行为识别中没有得到很好的探索。总的来说,此公式优于公共数据集的最好方法。2)特征表示通过深层卷积神经网络(CNN)学习到的特征和手工制作的特征相结合。使用空间网络从图像中的人体区域提取CNN特征。空间网络捕获了静止图像的静态外观。由于其良好的性能,将空间网络的fc6层的输出作为深度特征。使用梯度直方图和光流直方图(Ho本文档来自技高网...

【技术保护点】
一种用于人类行为识别的深度联合结构化和结构化学习的方法,其特征在于:所述方法包括以下步骤:1)构造联合结构和结构公式化假设有一组n个训练样本

【技术特征摘要】
1.一种用于人类行为识别的深度联合结构化和结构化学习的方法,其特征在于:所述方法包括以下步骤:1)构造联合结构和结构公式化假设有一组n个训练样本I表示一张图像,a是图像中所有人的行为标签的集合;如果图像包含m个个体,则a=[a1,…,am],矩阵E=(eij)∈{0,1}m×m是一个严格的上三角矩阵,表示图像中所有个体的相互关系结构;eij=0意味着在人i和人j之间没有交互,而eij=1指示人i和人j彼此交互;为了预测a和E,最大化下面的潜在函数:这里w=[w0,w1,w2]T是训练期间要学习的模型参数,函数φ(·),μ(·)和ψ(·)用于计算三种类型的联合特征,φ给出了图像和行为标签的联合特征;μ计算所述图像和所述交互标签e的联合特征;ψ输出图像和两个个体的行为标签a的联合特征表示;2)特征表示使用空间网络从图像中的人体区域提取深层卷积神经网络CNN特征,将空间网络的fc6层的输出作为深度特征,使用梯度直方图HOG和光流直方图特征HOF来进一步增强特征表示;CNN,HOG和HOF特征被连接以表示图像中的个人行为或交互关系,使用这种特征为每个数据集训练两个线性支持向量机分类器,一个用于分类个人行为,另一个用于分类交互关系,使用组合特征来计算公式(1)中的联合特征,为此,计算这里dα,d∈是用训练好的SVM分类器分类包含个人行为和交互关系得到的决策值表示的向量,并且所有运算符表示基于向量的元素计算;sα(a)表示一个人的行为为a的判别分数。s∈(e)表示l两个人有交互的判别分值或不在交互的分值,公式(1)中的联合特征由下式定义:φ(I,a)=1α(a)·Sα(a)(4)μ(I,a)=1∈(e)·S∈(e)(5)ψ(I,ai,aj)=1τ(ai,aj,pi,pj,rij)(6)这里1α(a)∈{0,1}a是指示符向量,在位置a时取值1,,其他位置取0的。同样,1∈(e)在位置e...

【专利技术属性】
技术研发人员:王振华金佳丽陈胜勇刘盛张剑华
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1