基于查询的人体行为感知方法、装置及程序产品制造方法及图纸

技术编号：41265723 阅读：14 留言：0更新日期：2024-05-11 09:22

本发明专利技术提供一种基于查询的人体行为感知方法、装置及程序产品，所述方法包括：获取预先训练的人体行为感知模型，人体行为感知模型包括视频编码器和动作解码器；视频编码器用于提取视频数据对应的视觉特征；动作解码器用于将视觉特征作为查询键值对，与至少一个预设查询进行关联，优化至少一个预设查询并输出查询任务对应的结果；将视频数据输入所述人体行为感知模型，得到人体行为感知结果。本发明专利技术能够实现跨任务联合优化，完成人体行为感知领域的多个任务，提高通用性和可拓展性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种基于查询的人体行为感知方法、装置及程序产品。

技术介绍

1、人体行为感知是计算机视觉中的一个重要课题。通常人体行为感知旨在定位、分割、分类和评估给定视频中的人类行为，以实现对人类行为的理解和识别，涉及动作识别，动作分割，动作定位和动作评估等。通过对视频数据中的人体姿势、动作和行为进行准确的分析和理解，可以应用于许多领域，如视频监控、人机交互、视频内容分析等，具有重要的应用前景。

2、现有的人体行为的感知方法，包括用于动作定位的双阶段方法或者单阶段方法，用于动作分割的基于时序卷积网络(temporal convolutional network，tcn)的算法、基于图神经网络(graph neural network，gnn)的算法和基于transformer的算法等，对于不同的人体行为任务只能处理一种任务，对于不同的任务采用不同的处理方式，一个模型只能完成某项特定的人体行为感知，统一化和标准化程度比较一般，虽然在一定程度上能够应对多样化的任务需求，但是无法实现多任务之间的有效融合和协同工作。...

【技术保护点】

1.一种基于查询的人体行为感知方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述视频编码器包括卷积网络层、变换器网络层和编码器层；所述视频数据包括视频序列或者视频序列的特征；在所述视频数据为所述视频序列的特征的情况下，所述基提取视频数据对应的视觉特征，包括：

3.根据权利要求2所述的方法，其特征在于，在所述视频数据为所述视频序列的情况下，所述通过所述卷积网络层将每个特征拓展成多个维度之前，还包括：通过所述卷积网络层提取所述视频序列对应的特征。

4.根据权利要求1所述的方法，其特征在于，所述至少一个预设查询包括类别查询...

【技术特征摘要】

1.一种基于查询的人体行为感知方法，其特征在于，该方法包括以下步骤：

4.根据权利要求1所述的方法，其特征在于，所述至少一个预设查询包括类别查询、边界查询和/或掩码查询；所述查询任务包括动作类别查询任务、动作定位查询任务、动作分割查询任务和/或动作评估查询任务；

5.根据权利要求4所述的方法，其特征在于，所述动作解码器包括预设数量的解码器层，所述将所述视觉特征作为查询键值对，与预设查询进行关联，优化预设查询并输出...

【专利技术属性】
技术研发人员：金磊，杨丰，淦子良，王小娟，何明枢，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人