当前位置: 首页 > 专利查询>同济大学专利>正文

基于重组样本学习的人-物交互动作识别方法技术

技术编号:38280852 阅读:10 留言:0更新日期:2023-07-27 10:29
本发明专利技术提供了一种基于重组样本学习的人

【技术实现步骤摘要】
基于重组样本学习的人

物交互动作识别方法


[0001]本专利技术涉及人

物交互动作识别领域,具体涉及一种基于重组样本学习的人

物交互动作识别方法。

技术介绍

[0002]作为人工智能领域的重要方向,动作识别一直是学术界和产业界的研究热点。人

物交互动作识别是动作识别领域的一项关键子任务,需要在图像中定位存在交互的人

物实例,并识别人与物体的交互动作关系。人

物交互动作识别是深化场景理解和视觉认知的重要核心技术,在安防监控、视频检索、无人驾驶等多个领域有着广泛的应用前景和巨大的市场需求。
[0003]近年来,深度学习成为了人

物交互动作识别领域的主流方法,并且随着Transformer架构在计算机视觉领域带来巨大变革,近期研究提出了多种基于Transformer的一阶段方法,实现端到端的人

物交互动作识别。
[0004]人

物交互动作识别存在严重的数据长尾分布问题,使得人

物交互动作类别的数据分布很不均衡。针对此问题,一部分现有研究提出了少样本或零样本人

物交互动作识别方法,将头部动作类别的知识向尾部动作类别或从未学习过的新动作类别进行泛化、迁移。其中一类方法通过重新组合不同类别人

物交互的各部分特征,生成新的训练样本以供模型学习。
[0005]但是现有的此类方法基本采用传统的基于CNN的两阶段框架,人

物交互的视觉特征普遍缺乏全局上下文信息,而特征样本的重组又往往造成全局上下文信息的进一步丢失,导致其表征能力更弱,学习效果也更差,致使基于特征样本重组的人

物交互动作识别模型的识别准确率较差。

技术实现思路

[0006]本专利技术是为了解决上述问题而进行的,目的在于提供一种基于重组样本学习的人

物交互动作识别方法。
[0007]本专利技术提供了一种基于重组样本学习的人

物交互动作识别方法,用于根据包含N
q
个随机初始化查询向量的查询向量组Q
p
和N
i
类人

物交互对待识别图像进行识别得到识别结果,具有这样的特征,包括以下步骤:步骤S1,将待识别图像输入卷积神经网络进行特征提取,再经由Transformer编码器编码,得到全局特征向量X
s
和位置编码向量E;步骤S2,将全局特征向量X
s
、位置编码向量E和查询向量组Q
p
输入人

物对解码器,得到N
q
个人

物对的特征向量作为人

物对特征向量组R
p
;步骤S3,将全局特征向量X
s
、位置编码向量E和人

物对特征向量组R
p
输入交互动作解码器,得到N
q
个人

物对的交互动作特征向量作为交互动作特征向量组R
i
;步骤S4,将人

物对特征向量组R
p
和交互动作特征向量组R
i
输入前馈神经网络,得到人

物对预测物对预测和交互动作预测Y
i
={a
n
,n∈{1,2,...,N
q
}};步骤S5,根据人

物对预测Y
p
、交互动作预测Y
i
和N
i
类人

物交互,得到N
q



物对的人

物交互预测结果物交互预测结果n∈{1,2,...,N
q
}}作为识别结果,其中,为第n个人

物对的人体边框,为第n个人

物对的物体边框,o
n
为第n个人

物对的包含所有物体类别的预测置信度的物体类别置信度向量,a
n
为第n个人

物对的包含所有动作类的动作类别置信度向量,y'
n
为第n个人

物对的人

物交互预测结果,u
n
为第n个人

物对的预测物体类别,v
n
为第n个人

物对的预测动作类别,为第n个人

物对的最大置信度。
[0008]在本专利技术提供的基于重组样本学习的人

物交互动作识别方法中,还可以具有这样的特征:其中,步骤S1包括以下子步骤:步骤S1

1,将待识别图像输入卷积神经网络进行特征提取,得到视觉特征图X
v
;步骤S1

2,根据视觉特征图X
v
,得到位置编码向量E;步骤S1

3,将视觉特征图X
v
和位置编码向量E输入Transformer编码器编码,得到全局特征向量X
s

[0009]在本专利技术提供的基于重组样本学习的人

物交互动作识别方法中,还可以具有这样的特征:其中,前馈神经网络包括人

物分类前馈网络和交互动作分类前馈网络,步骤S4包括以下子步骤:步骤S4

1,将交互动作特征向量组R
i
输入人

物分类前馈网络,得到N
q
个人

物对的人

物对预测;步骤S4

2,将人

物对特征向量组R
p
和交互动作特征向量组R
i
进行拼接再输入交互动作分类前馈网络,得到N
q
个人

物对的交互动作预测。
[0010]在本专利技术提供的基于重组样本学习的人

物交互动作识别方法中,还可以具有这样的特征:其中,步骤S5包括以下子步骤:步骤S5

1,对每个人

物对,根据N
i
类人

物交互,将动作类别置信度向量和物体类别置信度向量进行乘积计算,得到N
i
个置信度乘积;步骤S5

2,对每个人

物对,选取最大的置信度乘积作为人

物对的最大置信度,将最大置信度对应的物体类别和动作类别分别作为人

物对的预测物体类别和预测动作类别;步骤S5

3,对N
q
个人本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于重组样本学习的人

物交互动作识别方法,用于根据包含N
q
个随机初始化查询向量的查询向量组Q
p
和N
i
类人

物交互对待识别图像进行识别得到识别结果,其特征在于,包括以下步骤:步骤S1,将所述待识别图像输入卷积神经网络进行特征提取,再经由Transformer编码器编码,得到全局特征向量X
s
和位置编码向量E;步骤S2,将所述全局特征向量X
s
、所述位置编码向量E和所述查询向量组Q
p
输入人

物对解码器,得到N
q
个人

物对的特征向量作为人

物对特征向量组R
p
;步骤S3,将所述全局特征向量X
s
、所述位置编码向量E和所述人

物对特征向量组R
p
输入交互动作解码器,得到所述N
q
个所述人

物对的交互动作特征向量作为交互动作特征向量组R
i
;步骤S4,将所述人

物对特征向量组R
p
和所述交互动作特征向量组R
i
输入前馈神经网络,得到人

物对预测物对预测和交互动作预测Y
i
={a
n
,n∈{1,2,...,N
q
}};步骤S5,根据所述人

物对预测Y
p
、所述交互动作预测Y
i
和所述N
i
类人

物交互,得到所述N
q
个人

物对的人

物交互预测结果物交互预测结果作为所述识别结果,其中,为第n个所述人

物对的人体边框,为第n个所述人

物对的物体边框,o
n
为第n个所述人

物对的包含所有物体类别的预测置信度的物体类别置信度向量,a
n
为第n个所述人

物对的包含所有动作类的动作类别置信度向量,y'
n
为第n个所述人

物对的人

物交互预测结果,u
n
为第n个所述人

物对的预测物体类别,v
n
为第n个所述人

物对的预测动作类别,为第n个所述人

物对的最大置信度。2.根据权利要求1所述的基于重组样本学习的人

物交互动作识别方法,其特征在于:其中,所述步骤S1包括以下子步骤:步骤S1

1,将所述待识别图像输入所述卷积神经网络进行特征提取,得到视觉特征图X
v
;步骤S1

2,根据所述视觉特征图X
v
,得到所述位置编码向量E;步骤S1

3,将所述视觉特征图X
v
和所述位置编码向量E输入所述Transformer编码器编码,得到所述全局特征向量X
s
。3.根据权利要求1所述的基于重组样本学习的人

物交互动作识别方法,其特征在于:其中,所述前馈神经网络包括人

物分类前馈网络和交互动作分类前馈网络,所述步骤S4包括以下子步骤:步骤S4

1,将所述交互动作特征向量组R
i
输入所述人

物分类前馈网络,得到所述N
q
个人

物对的所述人

物对预测;步骤S4

2,将所述人

物对特征向量组R
p
和所述交互动作特征向量组R
i
进行拼接再输入所述交互动作分类前馈网络,得到所述N
q
个人

物对的所述交互动作预测。4.根据权利要求1所述的基于重组样本学习的人

物交互动作识别方法,其特征在于:其中,所述步骤S5包括以下子步骤:
步骤S5

1,对每个所述人

物对,根据所述N
i
类人

物交互,将所述动作类别置信度向量和所述物体类别置信度向量进行乘积计算,得到N
i
个置信度乘积;步骤S5

2,对每个所述人

物对,选取最大的所述置信度乘积作为所述人

物对的所述最大置信度,将所述最大置信度对应的所述物体类别和所述动作类别分别作为所述人

物对的所述预测物体类别和所述预测动作类别;步骤S5

3,对所述N
q
个人

物对的所述最大置信度从大到小进行排序,得到所述N
q
个人

物对的所述人

物交互预测结果。5.根据权利要求1所述的基于重组样本学习的人

物交互动作识别方法,其特征在于:其中,通过包含多个训练图像及其对应的真实标签的训练样本、N
i
类人

物交互和包含N
q
个随机初始化查询向量的查询向量组Q
p
对包括所述卷积神经网络、所述Transformer编码器、所述人

物对解码器、所述交互动作解码器和所述前馈神经网络的模型进行训练,包括以下步骤:步骤T1,从所述训练样本中随机选择训练图像I1和训练图像I2,将所述训练图像I1和所述训练图像I2输入所述卷积神经网络进行特征提取,再经由所述Transformer编码器编码,分别得到所述训练图像的全局特征向量和位置编码向量;步骤T2,对每个所述训练图像,将所述全局特征向量、所述位置编码向量和所述查询向量组Q
p
输入所述人

物对解码器,得到N
q
个人

物对的特征向量作为人

物对特征向量组;步骤T3,对每个所述训练图像,将所述全局特征向量、所述位置编码向量和所述人

物对特征向量组输入所述交互动作解码器,得到所述N
q
个人

物对的交互动作特征向量作为交互动作特征向量组;步骤T4,对每个所述训练图像,将所述人

物对特征向量组和所述交互动作特征向量组输入所述前馈神经网络,得到人

物对预测和交互动作预测,将所述人

物对预测和所述交互动作预测直接组合,得到人

物交互预测;步骤T5,对每个所述训练图像,根据匈牙利算法将所述人

物交互预测与所述训练图像对应的所述真实标签进行匹配,得到最准确人

物交互预测;步骤T6,根据所述两个训练图像的所述最准确人

物交互预测,得到对应的最准确人

物对特征向量和最准确交互动作特征向量,对所述最准确人

物对特征向量和所述最准确交互动作特征向量进行交叉重组或内部重组,得到重组人

物交互特征向量组,输入交互动作分类前馈网络,得到重组人

物交互预测,并对所述两个训练图像对应的所述真实标签进行重组,得到重组真实标签;步骤T7,根据所述两个训练图像的所述最准确人

物交互预测和所述真实标签,以及所述重组人

物交互预测和所述重组真实标签计算损失函数,根据损失函数计算结果对所述交互动作解码器的参数进行优化;步骤T8,重复执行所述步骤T1至所述步骤T7,直至所述训练样本中所有所述训练图像均对所述模型的参数进行优化,则所述模型训练完成,第k个所述训练图像的所述最准确人

物交互预测物交互预测物交互预测为第k个所述训练图像的第n个所述人

物对的最准确人

物交互预测,为第k个所述训练图像的第n个所述人

物对的最准确人体边
框,为第k个所述训练图像的第n个所述人

物对的最准确物体边框,o
kn
为第k个所述训练图像的第n个所述人

物对...

【专利技术属性】
技术研发人员:梁爽庄子鲲王颉文谢驰
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1