一种人与物体交互活动模型训练方法、识别方法及装置制造方法及图纸

技术编号:39305881 阅读:10 留言:0更新日期:2023-11-12 15:54
本发明专利技术涉及图像识别技术领域,特别是一种人与物体交互活动模型训练方法、识别方法及装置。本发明专利技术的优点在于:以“多头自注意力方法”,配合前馈神经网络,设计模型的核心模块,当我们将人与物体细粒度的关键点特征信息,输送给MHSA,它可以通过“多头”的自注意力算法,并行的学习人和物体各个方面的上下文特征信息,采用自注意力技术,设计交互活动模型,增强了模型对于人和物体的细粒度关键点、以及它们之间的上下文信息的获取和使用能力,进而提高人与物体交互活动识别的效率,包含注意力机制的特征学习,将能保证学习到更丰富、更适合人与物体交互活动识别的图像特征信息。体交互活动识别的图像特征信息。体交互活动识别的图像特征信息。

【技术实现步骤摘要】
一种人与物体交互活动模型训练方法、识别方法及装置


[0001]本专利技术涉及图像识别
,特别是一种人与物体交互活动模型训练方法、识别方法及装置。

技术介绍

[0002]人与物交互活动(HOI)检测是计算机视觉领域中一项具有挑战性的任务。传统方法一般是通过探索人、物体和相关上下文来建模。然而,人类行为学研究发现,关键的线索是人体关键点和物体部位,以及它们之间的相互上下文信息。
[0003]目前关于人与物体交互活动的识别框架只从人、物体和相关上下文来建模,这样的方式还存在以下不足:
[0004]目前的人与物体交互活动识别方法一般是通过探索人、物体和相关上下文来建模,而对于人和物体的细粒度关键点、以及它们之间的上下文信息的使用能力较低,对于人与物体交互活动识别的效率较低。

技术实现思路

[0005]本专利技术的目的旨在至少解决所述技术缺陷之一。
[0006]为此,本专利技术的一个目的在于提出一种人与物体交互活动模型训练方法、识别方法及装置,以解决
技术介绍
中所提到的问题,克服现有技术中存在的不足。
[0007]为了实现上述目的,本专利技术一方面的实施例提供一种人与物体交互活动模型训练方法,包括以下步骤:
[0008]1)、将人与物体细粒度的关键点特征信息,输送给交互活动模型中的MHSA模块;
[0009]2)、通过对大量人与物体交互活动图像数据进行训练,“多头”的自注意力算法,将对每一种类型的人与物体交互活动,学习和挖掘人和物体的关键点细粒度层面上的分布规律;
[0010]3)、学习从人和物体关键点的分布规律到交互活动类型的条件概率映射关系,条件概率表示为公式(1);
[0011][0012]4)、最小化模型预测的交互活动类型与真实标签之间的交叉熵损失函数,交叉熵损失函数如公式(2)和公式(3)所示;
[0013][0014][0015]5)、交互活动模型中MHSA的形式化表示如公式(4)和公式(5)所示:
[0016]MHSA(B)=W
o
CONCAT(hd1,

hd
m
)
T

o
ꢀꢀꢀ
(4)
[0017]hd
i
=SA
i
(B)
ꢀꢀꢀ
(5)
[0018]6)、将人和物体的细粒度关键点组成的特征矩阵表示为:将各个关键点的空间位置向量嵌入到矩阵X中,构成MHSA的输入矩阵B;
[0019]7)、使用残差计算方法,链接每一层的MHSA,使得每一层的MHSA(B)输出变为MHSA(B)+a,然后再对MHSA(B)+a使用归一化计算,生成归一化的输出结果norm(MHSA(B)+a);
[0020]8)、将norm(MHSA(B)+a)送入一个由一个多层感知机和Relu激活函数构成全连接层;
[0021]9)、全连接层的输出由残差链接和归一化计算进行处理,处理过程如公式(6)与公式(7)所示,
[0022]Π=f(W
r
·
Ψ+η
f
)
ꢀꢀꢀ
(6)
[0023]Ω=NORM(∏+Ψ)
ꢀꢀꢀ
(7)
[0024]公式(6)中f(
·
)表示Relu激活函数,Ψ表示归一化的计算输出,W
r
表示可学习的参数矩阵,η
f
是偏移量,公式(7)中Ω是最终的基于细粒度关键点相关性编码器的输出结果。
[0025]由上述任意方案优选的是,所述交互活动模型核心模块由多头自注意力方法与前馈神经网络组成,所述交互活动模型由多个核心模块级联堆叠而成。
[0026]由上述任意方案优选的是,所述步骤3)的公式(1)中y
*
∈Y表示模型预测出来的第i个人h
i
和第g个物体o
g
共同构成的人与物体交互活动类型,表示第i个人h
i
的关键点特征信息,表示第g个物体
[0027]o
g
的关键点信息,表示第i个人和第g个物体在关键点细粒度层面上的分布规律特征信息,θ表示模型参数集合。
[0028]由上述任意方案优选的是,所述模型最高层是由卷积神经网络和sigmoid分类器组成的回归模块,回归模块将对第i个人h
i
和第g个物体o
g
的组合,计算每一种交互活动y
j
的发生概率,计算公式(8)如下所示:
[0029]q
i,j
(x
i
)=sigmoid(x
i
)
ꢀꢀꢀ
(8)
[0030]其中x
i
表示第i个人h
i
和第g个物体o
g
的组合在模型最高层的特征向量;q
i,j
表示第i个人h
i
和第g个物体o
g
的组合发生的是第j种交互活动y
j
的概率值。
[0031]由上述任意方案优选的是,所述公式(2)和公式(3)中,I表示训练数据集中人

物组合的数量,J表示训练数据集中交互活动的数量。
[0032]由上述任意方案优选的是,所述步骤5)的公式(4)中CONCAT(
·
)表示将多个单头自注意力模块的输出矩阵连接成为一个组合矩阵D
o
,所述步骤3)公式(1)中通过将D
o
与一个可学习的权重矩阵W
o
进行点乘,并加上相应的偏移量矩阵β
o
,所述步骤5)的公式(5)中SA
i
(B)表示单头自注意力模块。
[0033]由上述任意方案优选的是,所述自注意力模块的计算描述公式如下所示:
[0034]SA
i
(X)=U
·
softmax(B

)
ꢀꢀꢀ
(9)
[0035]B

=[W
key
(B)]T
·
[W
qry
(B)]ꢀꢀꢀ
(10)
[0036]公式(9)和公式(1)中V是中间变量矩阵,U由输入矩阵B乘以参数矩阵
计算得到,由输入矩阵B乘以参数矩阵W
key
的结果点乘上输入矩阵B乘以W
qry
的结果获得,B

中每一个元素b
ij
都计算第i个关键点的特征与第j个关键点的特征之间的逻辑关系强度。
[0037]本专利技术另一方面的实施例提供一种人与物体交互活动识别方法,采用人与物体交互活动模型训练方法,包括以下步骤:
[0038]1)、输入:一幅图像中的人集合(H),物体集合(O);对于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人与物体交互活动模型训练方法,其特征在于:包括以下步骤:1)、将人与物体细粒度的关键点特征信息,输送给交互活动模型中的MHSA模块;2)、通过对大量人与物体交互活动图像数据进行训练,“多头”的自注意力算法,将对每一种类型的人与物体交互活动,学习和挖掘人和物体的关键点细粒度层面上的分布规律;3)、学习从人和物体关键点的分布规律到交互活动类型的条件概率映射关系,条件概率表示为公式(1);4)、最小化模型预测的交互活动类型与真实标签之间的交叉熵损失函数,交叉熵损失函数如公式(2)和公式(3)所示;函数如公式(2)和公式(3)所示;5)、交互活动模型中MHSA的形式化表示如公式(4)和公式(5)所示:MHSA(B)=W
o
CONCAT(hd1,

hd
m
)
T

o
ꢀꢀꢀꢀ
(4)hd
i
=SA
i
(B)
ꢀꢀꢀ
(5)6)、将人和物体的细粒度关键点组成的特征矩阵表示为:将各个关键点的空间位置向量嵌入到矩阵X中,构成MHSA的输入矩阵B;7)、使用残差计算方法,链接每一层的MHSA,使得每一层的MHSA(B)输出变为MHSA(B)+a,然后再对MHSA(B)+a使用归一化计算,生成归一化的输出结果norm(MHSA(B)+a):8)、将norm(MHSA(B)+a)送入一个由一个多层感知机和Relu激活函数构成全连接层;9)、全连接层的输出由残差链接和归一化计算进行处理,处理过程如公式(6)与公式(7)所示,Π=f(W
r
·
Ψ+η
f
)
ꢀꢀ
(6)Ω=NORM(Π+Ψ)
ꢀꢀ
(7)公式(6)中f(
·
)表示Relu激活函数,Ψ表示归一化的计算输出,W
r
表示可学习的参数矩阵,η
f
是偏移量,公式(7)中Ω是最终的基于细粒度关键点相关性编码器的输出结果。2.根据权利要求1所述的人与物体交互活动模型训练方法,其特征在于:所述交互活动模型核心模块由多头自注意力方法与前馈神经网络组成,所述交互活动模型由多个核心模块级联堆叠而成。3.根据权利要求1所述的人与物体交互活动模型训练方法,其特征在于:所述步骤3)的公式(1)中y
*
∈Y表示模型预测出来的第i个人h
i
和第g个物体o
g
共同构成的人与物体交互活动类型,表示第i个人h
i
的关键点特征信息,表示第g个物体o
g
的关键点信息,表示第i个人和第g个物体在关键点细粒度层面上的分布规律特征信息,θ表示模型参数集合。4.根据权利要求3所述的人与物体交互活动模型训练方法,其特征在于:所述模型最高
层是由卷积神经网络和sigmoid分类器组成的回归模块,回归模块将对第i个人h
i
和第g个物体o
g
的组合,计算每一种交互活动y
j
的发生概率,计算公式(8)如下所示:q
i,j
(x
i
)=sigmoid(x
i
)
ꢀꢀꢀꢀ
(8)其中x
i
表示第i个人h
i
和第g个物体o
g
的组合在模型最高层的特征向量;q
ij
表示第i个人h
i
和第g个物体o
g
的组合发生的是第j种交互活动y
j
的概率值。5.根据权利要求1所述的人与物体交互活动模型训练方法,其特征在于:所述公式(2)和公式(3)中,I表示训练数据...

【专利技术属性】
技术研发人员:白琳袁琳琳
申请(专利权)人:贵州开放大学贵州职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1