基于跨模态渐进交互的零样本骨架行为识别方法技术

技术编号:46607999 阅读:2 留言:0更新日期:2025-10-14 21:07
基于跨模态渐进交互的零样本骨架行为识别方法,其特征在于,包括以下步骤;S1:首先采用预训练的图卷积网络处理输入骨架序列,提取具有时空表征能力的骨架特征;S2:构建包含M个语义属性的共享集合,形成标准化的属性特征集合;S3:将骨架特征和所述属性特征集合输入到语义属性解耦模块,得到聚合了骨架特征的属性特征序列和用于特征聚合的相关性矩阵;S4:将S3输出的属性特征序列和S1输出的具有时空表征能力的骨架特征输入到属性感知增强模块,输出长度与骨架序列保持一致的骨架增强特征;S5:将所述骨架增强特征做平均池化,用于训练和测试,最终能够实现类别未知的行为数据样本的分类。本发明专利技术仅需优化少量交互参数即可实现高效的零样本识别。

【技术实现步骤摘要】

本专利技术属于计算机视觉,具体涉及一种基于跨模态渐进交互的零样本骨架行为识别方法


技术介绍

1、行为识别是计算机视觉的重要研究方向,传统方法主要依赖rgb视频数据,但存在计算复杂度高、易受背景干扰等问题。基于skeleton(骨架关键点)的方法通过提取人体关节点坐标进行建模,具有数据量小、计算高效、对背景变化鲁棒性强等优势,更适合实际应用。

2、然而,传统监督学习方法依赖大量标注数据,难以覆盖罕见动作或新增类别。zero-shot行为识别技术通过语义嵌入和跨模态对齐,使模型能够识别未见过的动作类别。例如,利用动作的文本描述(如“举手”“跌倒”)构建语义空间,并结合预训练语言模型(如clip)实现关节点序列与文本的映射,从而支持零样本推理。

3、该技术在智能监控、医疗康复、人机交互等领域具有重要价值。例如,在监控场景中可直接识别突发异常行为,在医疗场景中可通过自然语言描述扩展康复动作识别范围,减少数据标注需求并提升系统灵活性。

4、当前基于骨架序列的零样本行为识别方法仍面临若干关键挑战。现有方法大多采用全局特征匹配策略,本文档来自技高网...

【技术保护点】

1.基于跨模态渐进交互的零样本骨架行为识别方法,其特征在于,包括以下步骤;

2.根据权利要求1所述的基于跨模态渐进交互的零样本骨架行为识别方法,其特征在于,S1具体为,输入包含T帧、每帧J个关节点三维坐标的骨架序列,通过GCN的层级图卷积与池化操作,逐层聚合局部关节运动模式与全局时空关系,最终输出具有时空表征能力的骨架特征;此阶段完全冻结GCN的主干参数,保留其在大型动作数据集上学习到的通用运动表征能力。

3.根据权利要求2所述的基于跨模态渐进交互的零样本骨架行为识别方法,其特征在于,S1中,所述表示人体空间节点的骨架序列为x∈R3×T×V,T表示数据中有T帧,V...

【技术特征摘要】

1.基于跨模态渐进交互的零样本骨架行为识别方法,其特征在于,包括以下步骤;

2.根据权利要求1所述的基于跨模态渐进交互的零样本骨架行为识别方法,其特征在于,s1具体为,输入包含t帧、每帧j个关节点三维坐标的骨架序列,通过gcn的层级图卷积与池化操作,逐层聚合局部关节运动模式与全局时空关系,最终输出具有时空表征能力的骨架特征;此阶段完全冻结gcn的主干参数,保留其在大型动作数据集上学习到的通用运动表征能力。

3.根据权利要求2所述的基于跨模态渐进交互的零样本骨架行为识别方法,其特征在于,s1中,所述表示人体空间节点的骨架序列为x∈r3×t×v,t表示数据中有t帧,v表示定位人体关键点的节点数量,每一个节点有三维的空间坐标;经过图卷积网络编码的骨架特征c表示输出特征的通道数,和分别表示模型输出的节点和视频帧的数量,节点数量和模型输入保持一致,而视频帧会因为时序卷积发生降采样...

【专利技术属性】
技术研发人员:张亮毋铁越朱光明王宁
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1