人物交互检测方法、装置、设备以及存储介质制造方法及图纸

技术编号：35037545 阅读：26 留言：0更新日期：2022-09-24 23:14

本公开提供了一种人物交互检测方法、装置、设备、存储介质以及程序产品，涉及人工智能技术领域，具体涉及图像处理、计算机视觉和深度学习等技术领域，尤其涉及目标检测、智慧城市等场景。该方法的一具体实施方式包括：提取待检测图像的像素特征；将像素特征输入至基础编码器，得到全局特征；将全局特征分别输入至人物交互编码器、物体检测编码和交互编码器，得到人体物体交互特征、物体检测特征和交互动作特征；基于人体物体交互特征、物体检测特征和交互动作特征进行人物交互检测，得到多个人体物体交互信息。该实施方式提供了一种多编码器结构，通过基础编码器、人物交互编码器、物体检测编码和交互编码器，实现了对图像特征的解耦。耦。耦。

全部详细技术资料下载

【技术实现步骤摘要】
人物交互检测方法、装置、设备以及存储介质

[0001]本公开涉及人工智能
，具体涉及图像处理、计算机视觉和深度学习等
，尤其涉及目标检测、智慧城市等场景。

技术介绍

[0002]人物交互检测是定位出图像中所有做动作的人和物体，以及他们的动作关系。人物交互检测广泛应用于视频监控领域，能够对人体行为进行分类和监督。
[0003]当前的人物交互检测方法主要分为二阶段和一阶段方法。其中，二阶段方法主要采用先检测再分类的策略。一阶段方法是直接同时预测出<人体，物体，动作>三元组。

技术实现思路

[0004]本公开实施例提出了一种人物交互检测方法、装置、设备、存储介质以及程序产品。
[0005]第一方面，本公开实施例提出了一种人物交互检测方法，包括：提取待检测图像的像素特征；将像素特征输入至基础编码器，得到全局特征；将全局特征分别输入至人物交互编码器、物体检测编码和交互编码器，得到人体物体交互特征、物体检测特征和交互动作特征；基于人体物体交互特征、物体检测特征和交互动作特征进行人物交互检测，得到多个人体物体交互信息。
[0006]第二方面，本公开实施例提出了一种人物交互检测装置，包括：提取模块，被配置成提取待检测图像的像素特征；第一编码模块，被配置成将像素特征输入至基础编码器，得到全局特征；第二编码模块，被配置成将全局特征分别输入至人物交互编码器、物体检测编码和交互编码器，得到人体物体交互特征、物体检测特征和交互动作特征；交互检测模块，被配置成基于人...

【技术保护点】

【技术特征摘要】
1.一种人物交互检测方法，包括：提取待检测图像的像素特征；将所述像素特征输入至基础编码器，得到全局特征；将所述全局特征分别输入至人物交互编码器、物体检测编码和交互编码器，得到人体物体交互特征、物体检测特征和交互动作特征；基于所述人体物体交互特征、所述物体检测特征和所述交互动作特征进行人物交互检测，得到多个人体物体交互信息。2.根据权利要求1所述的方法，其中，所述基础编码器包括第一预设数目个编码器层，所述人物交互编码器包括第二预设数目个编码器层，所述物体检测编码器包括第三预设数目个编码器层，所述交互编码器包括第四预设数目个编码器层，每个编码器层包括交互注意力层、自注意力层和前向层。3.根据权利要求1所述的方法，其中，所述基于所述人体物体交互特征、所述物体检测特征和所述交互动作特征进行人物交互检测，得到多个人体物体交互信息，包括：将所述人体物体交互特征输入至预先训练的基础解码器，得到多个候选三元组；将所述多个候选三元组和所述物体检测特征输入至预先训练的物体检测解码器，得到多对人体物体交互信息，以及将所述多个候选三元组表达和所述交互动作特征输入至预先训练的交互解码器，得到多个交互动作信息；将所述多对人体物体交互信息和所述多个交互动作信息对应组合，得到多个人体物体交互信息。4.根据权利要求3所述的方法，其中，所述基础解码器包括第四预设数目个解码器层，所述物体检测解码器和所述交互解码器包括第五预设数目个解码器层，每个解码器层包括交互注意力层、自注意力层和前向层。5.根据权利要求4所述的方法，其中，将所述物体检测解码器的每一解码器层的输出引入到所述交互解码器的对应层中，基于所述交互动作特征、所述物体检测特征和特征转移矩阵，得到更新后的交互动作特征。6.根据权利要求3
‑
5中任一项所述的方法，其中，所述基础解码器采用人体检测框损失函数、物体检测框损失函数和动作分类损失函数进行训练获得，所述物体检测解码器采用人体检测框损失函数和物体检测框损失函数进行训练获得，所述交互解码器采用动作分类损失函数进行训练获得，其中，所述人体检测框损失函数用于表征预测人体边界框与真实人体边界框的差异，所述物体检测框损失函数用于表征预测物体边界框与真实物体边界框的差异，所述动作分类损失函数用于表征预测动作类别与真实动作类别的差异。7.根据权利要求6所述的方法，其中，所述人体检测框损失函数通过计算所述预测人体边界框与所述真实人体边界框的绝对距离和交并比的加权和得到，所述物体检测框损失函数通过计算所述预测物体边界框与所述真实物体边界框的绝对距离和交并比的加权和，再结合物体类别的交叉熵损失得到，所述动作分类损失函数通过计算所述预测动作类别与所述真实动作类别的焦点损失得到。8.一种人物交互检测装置，包括：提取模块，被配置成提取待检测图像的像素特征；第一编码模块，被配置成将所述像素特征输入至基础编码器，得到全局特征；
第二编码模块，被配置成将所述全局特征分别输入至人物交互编码器、物体检测编码和交互编码器，得到人体物体交互特征、物体检测特征和交互动作特征；交互检测模块，...

【专利技术属性】
技术研发人员：周德森，王健，孙昊，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人