【技术实现步骤摘要】
基于重组样本学习的人
‑
物交互动作识别方法
[0001]本专利技术涉及人
‑
物交互动作识别领域,具体涉及一种基于重组样本学习的人
‑
物交互动作识别方法。
技术介绍
[0002]作为人工智能领域的重要方向,动作识别一直是学术界和产业界的研究热点。人
‑
物交互动作识别是动作识别领域的一项关键子任务,需要在图像中定位存在交互的人
‑
物实例,并识别人与物体的交互动作关系。人
‑
物交互动作识别是深化场景理解和视觉认知的重要核心技术,在安防监控、视频检索、无人驾驶等多个领域有着广泛的应用前景和巨大的市场需求。
[0003]近年来,深度学习成为了人
‑
物交互动作识别领域的主流方法,并且随着Transformer架构在计算机视觉领域带来巨大变革,近期研究提出了多种基于Transformer的一阶段方法,实现端到端的人
‑
物交互动作识别。
[0004]人
‑
物交互动作识别存在严重的数据长尾分布问题,使得人
‑
物交互动作类别的数据分布很不均衡。针对此问题,一部分现有研究提出了少样本或零样本人
‑
物交互动作识别方法,将头部动作类别的知识向尾部动作类别或从未学习过的新动作类别进行泛化、迁移。其中一类方法通过重新组合不同类别人
‑
物交互的各部分特征,生成新的训练样本以供模型学习。
[0005]但是现有的此类 ...
【技术保护点】
【技术特征摘要】
1.一种基于重组样本学习的人
‑
物交互动作识别方法,用于根据包含N
q
个随机初始化查询向量的查询向量组Q
p
和N
i
类人
‑
物交互对待识别图像进行识别得到识别结果,其特征在于,包括以下步骤:步骤S1,将所述待识别图像输入卷积神经网络进行特征提取,再经由Transformer编码器编码,得到全局特征向量X
s
和位置编码向量E;步骤S2,将所述全局特征向量X
s
、所述位置编码向量E和所述查询向量组Q
p
输入人
‑
物对解码器,得到N
q
个人
‑
物对的特征向量作为人
‑
物对特征向量组R
p
;步骤S3,将所述全局特征向量X
s
、所述位置编码向量E和所述人
‑
物对特征向量组R
p
输入交互动作解码器,得到所述N
q
个所述人
‑
物对的交互动作特征向量作为交互动作特征向量组R
i
;步骤S4,将所述人
‑
物对特征向量组R
p
和所述交互动作特征向量组R
i
输入前馈神经网络,得到人
‑
物对预测物对预测和交互动作预测Y
i
={a
n
,n∈{1,2,...,N
q
}};步骤S5,根据所述人
‑
物对预测Y
p
、所述交互动作预测Y
i
和所述N
i
类人
‑
物交互,得到所述N
q
个人
‑
物对的人
‑
物交互预测结果物交互预测结果作为所述识别结果,其中,为第n个所述人
‑
物对的人体边框,为第n个所述人
‑
物对的物体边框,o
n
为第n个所述人
‑
物对的包含所有物体类别的预测置信度的物体类别置信度向量,a
n
为第n个所述人
‑
物对的包含所有动作类的动作类别置信度向量,y'
n
为第n个所述人
‑
物对的人
‑
物交互预测结果,u
n
为第n个所述人
‑
物对的预测物体类别,v
n
为第n个所述人
‑
物对的预测动作类别,为第n个所述人
‑
物对的最大置信度。2.根据权利要求1所述的基于重组样本学习的人
‑
物交互动作识别方法,其特征在于:其中,所述步骤S1包括以下子步骤:步骤S1
‑
1,将所述待识别图像输入所述卷积神经网络进行特征提取,得到视觉特征图X
v
;步骤S1
‑
2,根据所述视觉特征图X
v
,得到所述位置编码向量E;步骤S1
‑
3,将所述视觉特征图X
v
和所述位置编码向量E输入所述Transformer编码器编码,得到所述全局特征向量X
s
。3.根据权利要求1所述的基于重组样本学习的人
‑
物交互动作识别方法,其特征在于:其中,所述前馈神经网络包括人
‑
物分类前馈网络和交互动作分类前馈网络,所述步骤S4包括以下子步骤:步骤S4
‑
1,将所述交互动作特征向量组R
i
输入所述人
‑
物分类前馈网络,得到所述N
q
个人
‑
物对的所述人
‑
物对预测;步骤S4
‑
2,将所述人
‑
物对特征向量组R
p
和所述交互动作特征向量组R
i
进行拼接再输入所述交互动作分类前馈网络,得到所述N
q
个人
‑
物对的所述交互动作预测。4.根据权利要求1所述的基于重组样本学习的人
‑
物交互动作识别方法,其特征在于:其中,所述步骤S5包括以下子步骤:
步骤S5
‑
1,对每个所述人
‑
物对,根据所述N
i
类人
‑
物交互,将所述动作类别置信度向量和所述物体类别置信度向量进行乘积计算,得到N
i
个置信度乘积;步骤S5
‑
2,对每个所述人
‑
物对,选取最大的所述置信度乘积作为所述人
‑
物对的所述最大置信度,将所述最大置信度对应的所述物体类别和所述动作类别分别作为所述人
‑
物对的所述预测物体类别和所述预测动作类别;步骤S5
‑
3,对所述N
q
个人
‑
物对的所述最大置信度从大到小进行排序,得到所述N
q
个人
‑
物对的所述人
‑
物交互预测结果。5.根据权利要求1所述的基于重组样本学习的人
‑
物交互动作识别方法,其特征在于:其中,通过包含多个训练图像及其对应的真实标签的训练样本、N
i
类人
‑
物交互和包含N
q
个随机初始化查询向量的查询向量组Q
p
对包括所述卷积神经网络、所述Transformer编码器、所述人
‑
物对解码器、所述交互动作解码器和所述前馈神经网络的模型进行训练,包括以下步骤:步骤T1,从所述训练样本中随机选择训练图像I1和训练图像I2,将所述训练图像I1和所述训练图像I2输入所述卷积神经网络进行特征提取,再经由所述Transformer编码器编码,分别得到所述训练图像的全局特征向量和位置编码向量;步骤T2,对每个所述训练图像,将所述全局特征向量、所述位置编码向量和所述查询向量组Q
p
输入所述人
‑
物对解码器,得到N
q
个人
‑
物对的特征向量作为人
‑
物对特征向量组;步骤T3,对每个所述训练图像,将所述全局特征向量、所述位置编码向量和所述人
‑
物对特征向量组输入所述交互动作解码器,得到所述N
q
个人
‑
物对的交互动作特征向量作为交互动作特征向量组;步骤T4,对每个所述训练图像,将所述人
‑
物对特征向量组和所述交互动作特征向量组输入所述前馈神经网络,得到人
‑
物对预测和交互动作预测,将所述人
‑
物对预测和所述交互动作预测直接组合,得到人
‑
物交互预测;步骤T5,对每个所述训练图像,根据匈牙利算法将所述人
‑
物交互预测与所述训练图像对应的所述真实标签进行匹配,得到最准确人
‑
物交互预测;步骤T6,根据所述两个训练图像的所述最准确人
‑
物交互预测,得到对应的最准确人
‑
物对特征向量和最准确交互动作特征向量,对所述最准确人
‑
物对特征向量和所述最准确交互动作特征向量进行交叉重组或内部重组,得到重组人
‑
物交互特征向量组,输入交互动作分类前馈网络,得到重组人
‑
物交互预测,并对所述两个训练图像对应的所述真实标签进行重组,得到重组真实标签;步骤T7,根据所述两个训练图像的所述最准确人
‑
物交互预测和所述真实标签,以及所述重组人
‑
物交互预测和所述重组真实标签计算损失函数,根据损失函数计算结果对所述交互动作解码器的参数进行优化;步骤T8,重复执行所述步骤T1至所述步骤T7,直至所述训练样本中所有所述训练图像均对所述模型的参数进行优化,则所述模型训练完成,第k个所述训练图像的所述最准确人
‑
物交互预测物交互预测物交互预测为第k个所述训练图像的第n个所述人
‑
物对的最准确人
‑
物交互预测,为第k个所述训练图像的第n个所述人
‑
物对的最准确人体边
框,为第k个所述训练图像的第n个所述人
‑
物对的最准确物体边框,o
kn
为第k个所述训练图像的第n个所述人
‑
物对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。