基于查询的人体行为感知方法、装置及程序产品制造方法及图纸

技术编号:41265723 阅读:14 留言:0更新日期:2024-05-11 09:22
本发明专利技术提供一种基于查询的人体行为感知方法、装置及程序产品,所述方法包括:获取预先训练的人体行为感知模型,人体行为感知模型包括视频编码器和动作解码器;视频编码器用于提取视频数据对应的视觉特征;动作解码器用于将视觉特征作为查询键值对,与至少一个预设查询进行关联,优化至少一个预设查询并输出查询任务对应的结果;将视频数据输入所述人体行为感知模型,得到人体行为感知结果。本发明专利技术能够实现跨任务联合优化,完成人体行为感知领域的多个任务,提高通用性和可拓展性。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种基于查询的人体行为感知方法、装置及程序产品


技术介绍

1、人体行为感知是计算机视觉中的一个重要课题。通常人体行为感知旨在定位、分割、分类和评估给定视频中的人类行为,以实现对人类行为的理解和识别,涉及动作识别,动作分割,动作定位和动作评估等。通过对视频数据中的人体姿势、动作和行为进行准确的分析和理解,可以应用于许多领域,如视频监控、人机交互、视频内容分析等,具有重要的应用前景。

2、现有的人体行为的感知方法,包括用于动作定位的双阶段方法或者单阶段方法,用于动作分割的基于时序卷积网络(temporal convolutional network,tcn)的算法、基于图神经网络(graph neural network,gnn)的算法和基于transformer的算法等,对于不同的人体行为任务只能处理一种任务,对于不同的任务采用不同的处理方式,一个模型只能完成某项特定的人体行为感知,统一化和标准化程度比较一般,虽然在一定程度上能够应对多样化的任务需求,但是无法实现多任务之间的有效融合和协同工作。在实际应用中,针对每本文档来自技高网...

【技术保护点】

1.一种基于查询的人体行为感知方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述视频编码器包括卷积网络层、变换器网络层和编码器层;所述视频数据包括视频序列或者视频序列的特征;在所述视频数据为所述视频序列的特征的情况下,所述基提取视频数据对应的视觉特征,包括:

3.根据权利要求2所述的方法,其特征在于,在所述视频数据为所述视频序列的情况下,所述通过所述卷积网络层将每个特征拓展成多个维度之前,还包括:通过所述卷积网络层提取所述视频序列对应的特征。

4.根据权利要求1所述的方法,其特征在于,所述至少一个预设查询包括类别查询...

【技术特征摘要】

1.一种基于查询的人体行为感知方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述视频编码器包括卷积网络层、变换器网络层和编码器层;所述视频数据包括视频序列或者视频序列的特征;在所述视频数据为所述视频序列的特征的情况下,所述基提取视频数据对应的视觉特征,包括:

3.根据权利要求2所述的方法,其特征在于,在所述视频数据为所述视频序列的情况下,所述通过所述卷积网络层将每个特征拓展成多个维度之前,还包括:通过所述卷积网络层提取所述视频序列对应的特征。

4.根据权利要求1所述的方法,其特征在于,所述至少一个预设查询包括类别查询、边界查询和/或掩码查询;所述查询任务包括动作类别查询任务、动作定位查询任务、动作分割查询任务和/或动作评估查询任务;

5.根据权利要求4所述的方法,其特征在于,所述动作解码器包括预设数量的解码器层,所述将所述视觉特征作为查询键值对,与预设查询进行关联,优化预设查询并输出...

【专利技术属性】
技术研发人员:金磊杨丰淦子良王小娟何明枢
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1