人物交互检测方法、装置、设备以及存储介质制造方法及图纸

技术编号:35037545 阅读:26 留言:0更新日期:2022-09-24 23:14
本公开提供了一种人物交互检测方法、装置、设备、存储介质以及程序产品,涉及人工智能技术领域,具体涉及图像处理、计算机视觉和深度学习等技术领域,尤其涉及目标检测、智慧城市等场景。该方法的一具体实施方式包括:提取待检测图像的像素特征;将像素特征输入至基础编码器,得到全局特征;将全局特征分别输入至人物交互编码器、物体检测编码和交互编码器,得到人体物体交互特征、物体检测特征和交互动作特征;基于人体物体交互特征、物体检测特征和交互动作特征进行人物交互检测,得到多个人体物体交互信息。该实施方式提供了一种多编码器结构,通过基础编码器、人物交互编码器、物体检测编码和交互编码器,实现了对图像特征的解耦。耦。耦。

【技术实现步骤摘要】
人物交互检测方法、装置、设备以及存储介质


[0001]本公开涉及人工智能
,具体涉及图像处理、计算机视觉和深度学习等
,尤其涉及目标检测、智慧城市等场景。

技术介绍

[0002]人物交互检测是定位出图像中所有做动作的人和物体,以及他们的动作关系。人物交互检测广泛应用于视频监控领域,能够对人体行为进行分类和监督。
[0003]当前的人物交互检测方法主要分为二阶段和一阶段方法。其中,二阶段方法主要采用先检测再分类的策略。一阶段方法是直接同时预测出<人体,物体,动作>三元组。

技术实现思路

[0004]本公开实施例提出了一种人物交互检测方法、装置、设备、存储介质以及程序产品。
[0005]第一方面,本公开实施例提出了一种人物交互检测方法,包括:提取待检测图像的像素特征;将像素特征输入至基础编码器,得到全局特征;将全局特征分别输入至人物交互编码器、物体检测编码和交互编码器,得到人体物体交互特征、物体检测特征和交互动作特征;基于人体物体交互特征、物体检测特征和交互动作特征进行人物交互检测,得到多个人体物体交互信息。
[0006]第二方面,本公开实施例提出了一种人物交互检测装置,包括:提取模块,被配置成提取待检测图像的像素特征;第一编码模块,被配置成将像素特征输入至基础编码器,得到全局特征;第二编码模块,被配置成将全局特征分别输入至人物交互编码器、物体检测编码和交互编码器,得到人体物体交互特征、物体检测特征和交互动作特征;交互检测模块,被配置成基于人体物体交互特征、物体检测特征和交互动作特征进行人物交互检测,得到多个人体物体交互信息。
[0007]第三方面,本公开实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
[0008]第四方面,本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
[0009]第五方面,本公开实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0010]本公开实施例提供的人物交互检测方法,提供了一种多编码器结构,通过基础编码器、人物交互编码器、物体检测编码和交互编码器,实现了对图像特征的解耦。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开的人物交互检测方法的一个实施例的流程图;
[0014]图2是根据本公开的人物交互检测方法的又一个实施例的流程图;
[0015]图3是人物交互检测模型的结构示意图;
[0016]图4是根据本公开的人物交互检测装置的一个实施例的结构示意图;
[0017]图5是用来实现本公开实施例的人物交互检测方法的电子设备的框图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
[0020]图1示出了根据本公开的人物交互检测方法的一个实施例的流程100。该人物交互检测方法包括以下步骤:
[0021]步骤101,提取待检测图像的像素特征。
[0022]在本实施例中,人物交互检测方法的执行主体可以提取待检测图像的像素特征。其中,待检测图像可以是需要检测人体、物体及其动作关系的任意图像。
[0023]通常,采用残差网络来实现图像像素特征的提取,残差网络可以选用ResNet(Residual Neural Network,残差网络)50或ResNet101等。其中,像素特征可以待检测图像的像素点的属性,通常以矩阵的形式进行表示。
[0024]步骤102,将像素特征输入至基础编码器,得到全局特征。
[0025]在本实施例中,上述执行主体可以将像素特征输入至基础编码器,得到全局特征。
[0026]通常,基础编码器可以基于像素特征,利用自注意力机制进行全局特征建模。其中,全局特征可以是待检测图像的整体属性,包括但不限于颜色特征、纹理特征和形状特征等等。
[0027]在一些实施例中,基础编码器可以包括第一预设数目个编码器层,每个编码器层可以包括交互注意力层、自注意力层和前向层等,用于完成一次编码操作。
[0028]需要说明的是,基础编码器包括的编码器层的数目可以根据需要进行设置。通常,应用场景越复杂,基础编码器包括的编码器层的数目越多。在本实施例中,编码器层的数目可以例如设置成4个。
[0029]步骤103,将全局特征分别输入至人物交互编码器、物体检测编码和交互编码器,得到人体物体交互特征、物体检测特征和交互动作特征。
[0030]在本实施例中,上述执行主体可以将全局特征分别输入至人物交互编码器、物体检测编码和交互编码器。人物交互编码器可以输出人体物体交互特征,物体检测编码器可
以输出物体检测特征,交互编码器可以输出交互动作特征。
[0031]通常,人物交互编码器、物体检测编码和交互编码器三个头部编码器并列,为解码器提供特征。其中,人物交互编码器可以将基础编码器的结果作为输入,进一步利用自注意力机制进行建模,输出一种人物交互表征。类似于人物交互编码器,物体检测编码器可以同样基于基础编码器的结果进行编码,输出一种物体检测表征。交互编码器也可以同样基于基础编码器的结果进行编码,输出一种交互动作表征。
[0032]在一些实施例中,人物交互编码器可以包括第二预设数目个编码器层,物体检测编码器可以包括第三预设数目个编码器层,交互编码器可以包括第四预设数目个编码器层,每个编码器层可以包括交互注意力层、自注意力层和前向层等,用于完成一次编码操作。
[0033]需要说明的是,人物交互编码器、物体检测编码和交互编码器包括的编码器层的数目可以根据需要进行设置。通常,应用场景越复杂,人物交互编码器、物体检测编码和交互编码器包括的编码器层的数目越多。在本实施例中,人物交互编码器、物体检测编码和交互编码器的数目可以例如设置成2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人物交互检测方法,包括:提取待检测图像的像素特征;将所述像素特征输入至基础编码器,得到全局特征;将所述全局特征分别输入至人物交互编码器、物体检测编码和交互编码器,得到人体物体交互特征、物体检测特征和交互动作特征;基于所述人体物体交互特征、所述物体检测特征和所述交互动作特征进行人物交互检测,得到多个人体物体交互信息。2.根据权利要求1所述的方法,其中,所述基础编码器包括第一预设数目个编码器层,所述人物交互编码器包括第二预设数目个编码器层,所述物体检测编码器包括第三预设数目个编码器层,所述交互编码器包括第四预设数目个编码器层,每个编码器层包括交互注意力层、自注意力层和前向层。3.根据权利要求1所述的方法,其中,所述基于所述人体物体交互特征、所述物体检测特征和所述交互动作特征进行人物交互检测,得到多个人体物体交互信息,包括:将所述人体物体交互特征输入至预先训练的基础解码器,得到多个候选三元组;将所述多个候选三元组和所述物体检测特征输入至预先训练的物体检测解码器,得到多对人体物体交互信息,以及将所述多个候选三元组表达和所述交互动作特征输入至预先训练的交互解码器,得到多个交互动作信息;将所述多对人体物体交互信息和所述多个交互动作信息对应组合,得到多个人体物体交互信息。4.根据权利要求3所述的方法,其中,所述基础解码器包括第四预设数目个解码器层,所述物体检测解码器和所述交互解码器包括第五预设数目个解码器层,每个解码器层包括交互注意力层、自注意力层和前向层。5.根据权利要求4所述的方法,其中,将所述物体检测解码器的每一解码器层的输出引入到所述交互解码器的对应层中,基于所述交互动作特征、所述物体检测特征和特征转移矩阵,得到更新后的交互动作特征。6.根据权利要求3

5中任一项所述的方法,其中,所述基础解码器采用人体检测框损失函数、物体检测框损失函数和动作分类损失函数进行训练获得,所述物体检测解码器采用人体检测框损失函数和物体检测框损失函数进行训练获得,所述交互解码器采用动作分类损失函数进行训练获得,其中,所述人体检测框损失函数用于表征预测人体边界框与真实人体边界框的差异,所述物体检测框损失函数用于表征预测物体边界框与真实物体边界框的差异,所述动作分类损失函数用于表征预测动作类别与真实动作类别的差异。7.根据权利要求6所述的方法,其中,所述人体检测框损失函数通过计算所述预测人体边界框与所述真实人体边界框的绝对距离和交并比的加权和得到,所述物体检测框损失函数通过计算所述预测物体边界框与所述真实物体边界框的绝对距离和交并比的加权和,再结合物体类别的交叉熵损失得到,所述动作分类损失函数通过计算所述预测动作类别与所述真实动作类别的焦点损失得到。8.一种人物交互检测装置,包括:提取模块,被配置成提取待检测图像的像素特征;第一编码模块,被配置成将所述像素特征输入至基础编码器,得到全局特征;
第二编码模块,被配置成将所述全局特征分别输入至人物交互编码器、物体检测编码和交互编码器,得到人体物体交互特征、物体检测特征和交互动作特征;交互检测模块,...

【专利技术属性】
技术研发人员:周德森王健孙昊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1