基于跨模态渐进交互的零样本骨架行为识别方法技术

技术编号：46607999 阅读：2 留言：0更新日期：2025-10-14 21:07

基于跨模态渐进交互的零样本骨架行为识别方法，其特征在于，包括以下步骤；S1：首先采用预训练的图卷积网络处理输入骨架序列，提取具有时空表征能力的骨架特征；S2：构建包含M个语义属性的共享集合，形成标准化的属性特征集合；S3：将骨架特征和所述属性特征集合输入到语义属性解耦模块，得到聚合了骨架特征的属性特征序列和用于特征聚合的相关性矩阵；S4：将S3输出的属性特征序列和S1输出的具有时空表征能力的骨架特征输入到属性感知增强模块，输出长度与骨架序列保持一致的骨架增强特征；S5：将所述骨架增强特征做平均池化，用于训练和测试，最终能够实现类别未知的行为数据样本的分类。本发明专利技术仅需优化少量交互参数即可实现高效的零样本识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，具体涉及一种基于跨模态渐进交互的零样本骨架行为识别方法。

技术介绍

1、行为识别是计算机视觉的重要研究方向，传统方法主要依赖rgb视频数据，但存在计算复杂度高、易受背景干扰等问题。基于skeleton(骨架关键点)的方法通过提取人体关节点坐标进行建模，具有数据量小、计算高效、对背景变化鲁棒性强等优势，更适合实际应用。

2、然而，传统监督学习方法依赖大量标注数据，难以覆盖罕见动作或新增类别。zero-shot行为识别技术通过语义嵌入和跨模态对齐，使模型能够识别未见过的动作类别。例如，利用动作的文本描述(如“举手”“跌倒”)构建语义空间，并结合预训练语言模型(如clip)实现关节点序列与文本的映射，从而支持零样本推理。

3、该技术在智能监控、医疗康复、人机交互等领域具有重要价值。例如，在监控场景中可直接识别突发异常行为，在医疗场景中可通过自然语言描述扩展康复动作识别范围，减少数据标注需求并提升系统灵活性。

4、当前基于骨架序列的零样本行为识别方法仍面临若干关键挑战。现有方法大多采...

【技术保护点】

1.基于跨模态渐进交互的零样本骨架行为识别方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的基于跨模态渐进交互的零样本骨架行为识别方法，其特征在于，S1具体为，输入包含T帧、每帧J个关节点三维坐标的骨架序列，通过GCN的层级图卷积与池化操作，逐层聚合局部关节运动模式与全局时空关系，最终输出具有时空表征能力的骨架特征；此阶段完全冻结GCN的主干参数，保留其在大型动作数据集上学习到的通用运动表征能力。

3.根据权利要求2所述的基于跨模态渐进交互的零样本骨架行为识别方法，其特征在于，S1中，所述表示人体空间节点的骨架序列为x∈R3×T×V，T表示数据中有T帧，V...

【技术特征摘要】

1.基于跨模态渐进交互的零样本骨架行为识别方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的基于跨模态渐进交互的零样本骨架行为识别方法，其特征在于，s1具体为，输入包含t帧、每帧j个关节点三维坐标的骨架序列，通过gcn的层级图卷积与池化操作，逐层聚合局部关节运动模式与全局时空关系，最终输出具有时空表征能力的骨架特征；此阶段完全冻结gcn的主干参数，保留其在大型动作数据集上学习到的通用运动表征能力。

3.根据权利要求2所述的基于跨模态渐进交互的零样本骨架行为识别方法，其特征在于，s1中，所述表示人体空间节点的骨架序列为x∈r3×t×v，t表示数据中有t帧，v表示定位人体关键点的节点数量，每一个节点有三维的空间坐标；经过图卷积网络编码的骨架特征c表示输出特征的通道数，和分别表示模型输出的节点和视频帧的数量，节点数量和模型输入保持一致，而视频帧会因为时序卷积发生降采样...

【专利技术属性】
技术研发人员：张亮，毋铁越，朱光明，王宁，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人