当前位置: 首页 > 专利查询>厦门大学专利>正文

一种语义可控的人体行为姿态视频数据扩增系统及方法技术方案

技术编号:37274296 阅读:14 留言:0更新日期:2023-04-20 23:42
本发明专利技术涉及一种语义可控的人体行为姿态视频数据扩增系统及方法,其针对应用场景中的目标人物行为,进行规范化定义与采集,通过视频逐帧分析进行3D人体姿态估计;利用人体姿态运动学知识对估计模型进行表示,约束各关键点和自由度,构建人体姿态关键点嵌入表达;利用预训练的对抗生成网络对提取信息进行博弈生成,产生尽可能逼真的新数据;对生成数据进行3D姿态重建,通过姿态迁移算法实现人体姿态在不同目标人物上的迁移,实现人体行为数据的扩增。增。增。

【技术实现步骤摘要】
一种语义可控的人体行为姿态视频数据扩增系统及方法


[0001]本专利技术涉及人体姿态分析与数据扩增
,具体涉及一种语义可控的人体行为姿态视频数据扩增系统及方法,可适用于公共安全、健康监护、智慧教育等应用场景,构建相应数据资源池,服务于多样化下游检测任务。

技术介绍

[0002]深度神经网络的方法作为强大的工具之一需要足够的训练数据作支撑。如何有效地训练样本不足的网络一直是深度学习的一大挑战。在一些特殊的应用场景中,面临异常行为数据难以采集;行为数据标注成本高、带标签行为数据少;样本数量分布不均衡等问题,使针对该场景中的检测分类任务难以从数据中获得足够的有效信息,从而得到满意的分类结果。基于不足的数据样本训练的视频分类网络运用深度特征抽取网络提取视频数据的深度信息,容易导致过拟合现象。
[0003]在实际场景中,如公共安全、健康监护、智慧教育等应用场景中的人体行为信息多受场景约束,采样参数、视野范围、数据格式和数据质量等均有不同程度的影响。数据集的分布往往遵循长尾分布,异常的人体姿势只占所有数据中的一小部分,这进一步导致罕见姿势缺乏多样性,和现有的姿态估计网络的泛化能力有待提升。故罕见的异常行为存在采样数量少、数据丰富度低、行为特征单一等现象。以上事实共同造成了在具体的应用场景中,低频异常人体行为信息存在数据量少、数据丰富度低和数据采集困难的问题,且难以应用通用数据集和直接迁移模型的方法解决。一些异常检测模型是基于目标检测技术开发的,以单帧图像上的信息作为异常行为识别的基础,在部分场景下并不适用,造成误检。而视频数据检测和视频数据生成的难度更大于针对单帧静态图像的目标检测和图像生成,所以针对人体行为数据的扩增存在研究意义。
[0004]数据扩增技术以人为地生成不同版本、不同类型的真实数据集的方式增加其数据量和数据相关的信息。数据扩增的策略多应用于机器智能领域来处理数据稀缺和数据多样性不足的问题。而在面向不同任务的数据扩增策略中,对于图像类的数据扩增有一些被证明有效的方法,如几何变换、色彩增强和裁剪等,然而针对如人体姿态序列这类同时具有时空特性的高维信息,则少见相关数据扩增的研究。同时,大部分数据扩增算法更多旨在当前既有数据的基础上进行泛化加工,而鲜有基于数据含义作可控编辑生成的数据扩增方法。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术的目的在于提供一种语义可控的人体行为姿态视频数据扩增方法,其可自主生成对应行为数据的新数据样本,从而提升人体行为数据的内容丰富度与姿态丰富度。
[0006]为实现上述目的,本专利技术采用的技术方案是:
[0007]一种语义可控的人体行为姿态视频数据扩增系统,所述系统包括数据规范化模块、姿态估计模块、行为生成模块、姿态重建模块和姿态迁移模块;
[0008]所述数据规范化模块用于对原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段;所述初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r),其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整;
[0009]所述姿态估计模块用于对规范化后的行为视频数据片段进行如下处理:
[0010](1)采用J个关键点对人体姿态进行标注及定义;
[0011](2)利用姿态估计网络对行为视频数据片段进行标注及定义,得到带有3D姿态关键点的标注及其坐标,以及估计姿态数据,该估计姿态数据视为一串真实的人体姿态行为序列;
[0012]带有3D姿态关键点的标注及其坐标表示为:
[0013]{Joint
i
|(X1,Y1,Z1),(X2,Y2,Z2)...(X
J
,Y
J
,Z
J
),i=0,1,2...J};
[0014]姿态估计数据表示给定语义标签的真实动作序列,具体表示为:
[0015][0016]其中,J为人体3D姿态估计关键点个数,L为序列长度;
[0017](3)设定映射编码器P
e
,将人体姿态行为序列逐帧投影为一维向量后,根据帧数进行组合,最终映射得重构行为序列数据H为嵌入空间的维数,得到转化后的重构行为序列数据;一维向量表示为:
[0018][0019]其中,i为序列S在x轴上的索引;
[0020]所述行为生成模块,以姿态估计模块中转化后的重构行为序列数据作为输入数据,根据扩增需求,判断是否需要对数据进行语义属性编辑生成;如果判断为否,则重构行为序列数据作为预训练后的模型生成器G1的输入数据,生成新的序列样本数据;如果判断为是,则重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量,将隐空间向量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据;
[0021]姿态重建模块,用于对行为生成模块中行为生成的新样本数据进行解析重建,根据人体关键点标签与坐标数据格式和映射编码器P
e
构建解码器P
d
,并进行还原,得到重建人体姿态行为序列;
[0022]姿态迁移模块,用于根据姿态重建模块中重建得到的重建人体姿态行为序列,利用姿态投影算法、姿态迁移算法对该姿态序列进行目标人物迁移,通过调整目标人物参数char,实现对该姿态在不同人物身上的映射,达到数据扩增的目的。
[0023]所述模型生成器G1的预训练过程如下:
[0024](1)利用公开数据集预训练对抗生成网络;
[0025]具体地,将公开数据集的数据经过数据规范化与姿态估计处理得到的重构行为序列并将其作为真实数据;以随机噪声z作为模型生成器G1的输入映射为生成数据G(z);以真实数据与生成数据G(z)作为判别器的输入,由判别器判断数据生成效果是否真实;
[0026](2)模型生成器G1预训练过程中,利用判别器衡量重建数据和原数据之间的分布
差异,通过反向传播将生成器损失与判别器损失反馈回生成器与判别器,进行迭代训练,训练过程交替训练生成器和判别器,判别器训练的损失函数为:
[0027][0028]模型生成器G1的损失函数为:
[0029][0030](3)模型生成器G1预训练模块训练过程中的感知损失为将生成样本和真实值分别送入VGG16网络提取特征,计算其在VGG16网络N个层中M个特征值的L1距离如式(1

4):
[0031][0032]其中,z指模型输入,x为对应真实数据G(z)为生成数据;
[0033](4)将关键点对的集合ε={i,j}的误差L
limb
作为约束条件,优化对抗生成网络的目标函数,误差L
limb
如下:
[0034][0035]所述语义可控模型生成器G2的预训练包括第一训练阶段和第二训练阶段:第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义可控的人体行为姿态视频数据扩增系统,其特征在于:所述系统包括数据规范化模块、姿态估计模块、行为生成模块、姿态重建模块和姿态迁移模块;所述数据规范化模块用于对原始视频中的行为信息进行初始化定义后根据定义片段长度裁剪,得到行为视频数据片段;所述初始化定义包括定义其类别、行为起始视频帧、行为结束视频帧、行为片段实际长度,以及规范化行为视频数据片段长度L,调整数据画幅大小为(r,r),其中,L值可根据经验进行调整,即由各批次扩增数据的特征作调整;所述姿态估计模块用于对规范化后的行为视频数据片段进行如下处理:(1)采用J个关键点对人体姿态进行标注及定义;(2)利用姿态估计网络对行为视频数据片段进行标注及定义,得到带有3D姿态关键点的标注及其坐标,以及估计姿态数据,该估计姿态数据视为一串真实的人体姿态行为序列;带有3D姿态关键点的标注及其坐标表示为:{Joint
i
|(X1,Y1,Z1),(X2,Y2,Z2)

(X
J
,Y
J
,Z
J
),i=0,1,2

J};姿态估计数据表示给定语义标签的真实动作序列,具体表示为:其中,J为人体3D姿态估计关键点个数,L为序列长度;(3)设定映射编码器P
e
,将人体姿态行为序列逐帧投影为一维向量后,根据帧数进行组合,最终映射得重构行为序列数据H为嵌入空间的维数,得到转化后的重构行为序列数据;一维向量表示为:其中,i为序列S在x轴上的索引;所述行为生成模块,以姿态估计模块中转化后的重构行为序列数据作为输入数据,根据扩增需求,判断是否需要对数据进行语义属性编辑生成;如果判断为否,则重构行为序列数据作为预训练后的模型生成器G1的输入数据,生成新的序列样本数据;如果判断为是,则重构行为序列数据作为属性编码器的输入数据,对动作序列进行语义属性编码,并根据扩增需求,对子向量进行组合与控制,得到语义属性调控后的隐空间向量,将隐空间向量输入预训练后的语义可控模型生成器G2,生成新的序列样本数据;姿态重建模块,用于对行为生成模块中行为生成的新样本数据进行解析重建,根据人体关键点标签与坐标数据格式和映射编码器P
e
构建解码器P
d
,并进行还原,得到重建人体姿态行为序列;姿态迁移模块,用于根据姿态重建模块中重建得到的重建人体姿态行为序列,利用姿态投影算法、姿态迁移算法对该姿态序列进行目标人物迁移,通过调整目标人物参数char,实现对该姿态在不同人物身上的映射,达到数据扩增的目的。2.根据权利要求1所述的一种语义可控的人体行为姿态视频数据扩增系统,其特征在于:所述模型生成器G1的预训练过程如下:(1)利用公开数据集预训练对抗生成网络;具体地,将公开数据集的数据经过数据规范化与姿态估计处理得到的重构行为序列并将其作为真实数据;以随机噪声z作为模型生成器G1的输入映射为生成数据G(z);以真实
数据与生成数据G(z)作为判别器的输入,由判别器判断数据生成效果是否真实;(2)模型生成器G1预训练过程中,利用判别器衡量重建数据和原数据之间的分布差异,通过反向传播将生成器损失与判别器损失反馈回生成器与判别器,进行迭代训练,训练过程交替训练生成器和判别器,判别器训练的损失函数为:模型生成器G1的损失函数为:(3)模型生成器G1预训练模块训练过程中的感知损失为将生成样本和真实值分别送入VGG16网络提取特征,计算其在VGG16网络N个层中M个特征值的L1距离如式(1

4):其中,z指模型输入,x为对应真实数据G(z)为生成数据;(4)将关键点对的集合ε={i,j}的误差L
limb
作为约束条件,优化对抗生成网络的目标函数,误差L
limb
如下:3.根据权利要求1所述的一种语义可控的人体行为姿态视频数据扩增系统,其特征在于:所述语义可控模型生成器G2的预训练包括第一训练阶段和第二训练阶段:第一训练阶段如下:(1)针对真实数据的数据隐空间进行结构化语义划分;将隐空间Z与W划分为多个子空间,每个子空间编码不同的语义属性;划分规则如下:假设每段数据序列有N个语义属性,则把隐空间划分为N+1个子空间,最后一个子空间包括所有其余属性;将隐空间Z与W表示为两个潜在空间中子向量的级联,将组合后的隐空间向量w输入语义可控模型生成器G2;(2)基于组合后的隐空间向量w,语义可控模型生成器G2生成含有各组合语义属性的生成数据;采用对比学习的方法对隐空间进行解耦,在一个对比训练的分支里取两个不同的隐向量,计算两个向量对第k个属性的对比损失,让两个向量生成的图片在同一个属性时相互靠近,属性不同则相互远离;同时,将关键点对间的误差L
limb
作为约束条件,优化对抗生成网络的目标函数Loss,误差L
limb
如下:(3)对比训练的过程中,为了使得生成数据的一个特定属性可控,对属性k定义一个可微函数M
k
将二维图像数据I映射到D维空间中,具有相似属性的数据在D维空间中相互接近,不同属性的数据相互远离,将两幅图像I...

【专利技术属性】
技术研发人员:林璐洪学敏石江宏
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1