细粒度行为识别模型构建方法及系统技术方案

技术编号:31830771 阅读:15 留言:0更新日期:2022-01-12 13:07
本发明专利技术提出了细粒度行为识别模型构建方法及系统,包括:对获得的视频数据的帧序列进行关键点预测,每帧中包含人体的多个关键点坐标信息;针对帧序列,按照得到的关键点坐标为中心进行裁剪,每帧图像得到多个图像分块;将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结果;将处理结果输入至深度自注意变换网络中,通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。本发明专利技术实现了更精确地预测。发明专利技术实现了更精确地预测。发明专利技术实现了更精确地预测。

【技术实现步骤摘要】
细粒度行为识别模型构建方法及系统


[0001]本专利技术属于计算机视觉
,尤其涉及基于姿态位置和表观编码 的细粒度行为识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构 成在先技术。
[0003]随着深度自注意变换网络(Transformer)在自然语言处理领域的成功 应用,人们开始尝试将其应用到计算机视觉任务中。其中,一些工作尝试 将标准Transformer直接应用于图像,即将图像拆分为小块,并提供这些小 块的线性嵌入序列作为transformer的输入。以监督方式对模型进行图像分 类训练。
[0004]目前的细粒度行为识别存在的技术问题是:细粒度行为识别属于行为 识别的一个分支,当前基于视觉信息的行为识别技术例如:Temporal ShiftModule(TSM),Action

net等方法的粒度都在于行为类别,而对执行行为的个 体区别不予关注。因此最先进的方法在识别一些具有细微差别的行为时的 精度远低于人类的水平。当前的基于视觉信息的行为识别技术由于粒度在 行为类别上,可能在分类过程中过于依赖视频背景,从而忽略了个体才是 行为识别任务中最应该关注的。

技术实现思路

[0005]为克服上述现有技术的不足,本专利技术提供了细粒度行为识别模型构建 方法及系统,实现了对视频数据中人体行为的准确预测。
[0006]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
[0007]第一方面,公开了细粒度行为识别模型构建方法,包括:
[0008]对获得的视频数据的帧序列进行关键点预测,每帧中包含人体的多个 关键点坐标信息;
[0009]针对帧序列,按照得到的关键点坐标为中心进行裁剪,每帧图像得到 多个图像分块;
[0010]将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图 像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结 果;
[0011]将处理结果输入至深度自注意变换网络中,通过损失函数测量真实分 类结果与预测分类结果之间的误差大小,然后基于该误差对网络权值进行 优化和修正,获得细粒度行为识别模型。
[0012]在一些实施例子中,对获得的视频数据首先进行预处理得到帧序列, 帧序列中的元素调整为统一大小。
[0013]在一些实施例子中,将拼接后的图像分块之后,还包括利用线性投影 模块处理为线性向量。
[0014]在一些实施例子中,将处理结果输入至深度自注意变换网络中之后, 利用softmax作为最后的分类输出,优化交叉熵损失函数。
[0015]在一些实施例子中,对网络权值进行优化和修正的过程中,利用现有 的细粒度行为数据集作为模型的训练数据,利用数据集视频的行为类别作 为分类真值标签,采用反向传播算法和随机梯度下降法来减小误差以训练 模型,经过多次迭代训练得到最终的预测模型。
[0016]第二方面,公开了视频数据中人体行为识别方法,包括:
[0017]将待识别视频数据输入至细粒度行为识别模型,预测视频数据中人的 行为,继而得到视频数据中人的行为预测标签。
[0018]第三方面,公开了细粒度行为识别模型构建系统,包括:
[0019]关键点预测模块,被配置为:对获得的视频数据的帧序列进行关键点 预测,每帧中包含人体的多个关键点坐标信息;
[0020]图像分块模块,被配置为:针对帧序列,按照得到的关键点坐标为中 心进行裁剪,每帧图像得到多个图像分块;
[0021]将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图 像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结 果;
[0022]模型优化模块,被配置为:将处理结果输入至深度自注意变换网络中, 通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基 于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。
[0023]以上一个或多个技术方案存在以下有益效果:
[0024]本专利技术为更精确地预测细粒度行为,利用人体姿态位置对行为进行建 模,另一方面引入了Transformer网络,扩充基于骨架预测行为的网路,最 后,为更好的建模,以姿态估计得到的关键点坐标为中心裁剪图片,得到 的图像分块作为网络的输入,实现了更精确地预测。
[0025]本专利技术首先利用人体姿态估计技术对输入的视频数据进行预处理,得 到带有人体关键点位置的帧序列,然后将每帧图像以人体关键点为中心取 固定大小的裁剪区块,裁剪区块经过线性投影后,结合关键点坐标,输入 到Transformer网络中,得到输入视频中人体的细粒度行为预测结果。
[0026]本专利技术方法具有通用性并且兼顾了精确度的要求。通过测试实验中的 应用验证了上述方法的有效性。
[0027]本专利技术的方法采用人体姿态关节点信息对行为进行识别,基于关节点 信息的关注点就在个体,因此,该方法更容易关注到个体行为之间的细微 差异。其次,本专利技术的方法结合了最新的Transformer技术,为后续细粒度 行为识别的研究提供了新的思路。
[0028]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的 描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0029]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解, 本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不 当限定。
[0030]图1为本专利技术实施例基于姿态位置和表观编码的细粒度行为识别方法 示意图;
[0031]图2为本专利技术实施例算法流程图。
具体实施方式
[0032]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的 说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0033]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非 意图限制根据本专利技术的示例性实施方式。
[0034]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组 合。
[0035]实施例一
[0036]基于深度学习的方法的测试实验利用公开数据集,对模型进行训练以 及测试,获得测试效果。本专利技术公开了具体的网络模型架构示意图,如图1。
[0037]参见附图1、2所示,本实施例公开了细粒度行为识别模型构建方法, 以细粒度行为数据集A为例,共包含个6000多个视频,99类行为。本发 明具体包括如下步骤:
[0038]步骤S0,视频数据预处理,得到帧序列,共T帧,记为∑{f
t
},t∈ [1,2,

,T

1,T],f
t
均调整为统一大小,记为w
×
h
×
c,实际选择为256
×ꢀ
256
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.细粒度行为识别模型构建方法,其特征是,包括:对获得的视频数据的帧序列进行关键点预测,每帧中包含人体的多个关键点坐标信息;针对帧序列,按照得到的关键点坐标为中心进行裁剪,每帧图像得到多个图像分块;将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结果;将处理结果输入至深度自注意变换网络中,通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。2.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,对获得的视频数据首先进行预处理得到帧序列,帧序列中的元素调整为统一大小。3.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,将拼接后的图像分块之后,还包括利用线性投影模块处理为线性向量。4.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,将处理结果输入至深度自注意变换网络中之后,利用softmax作为最后的分类输出,优化交叉熵损失函数。5.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,对网络权值进行优化和修正的过程中,利用现有的细粒度行为数据集作为模型的训练数据,利用数据集视频的行为类别作为分类真值标签,采用反向传播算法和随机梯度下降法来减小误差以训练模型,经过多次迭代训练得到最终的预测模型。6.视频数据中人体行为识别方法,其特征是,包括:将待识别视频数据输入至细粒度行为识别模型,预测视频数据中人的行为,继...

【专利技术属性】
技术研发人员:王海滨纪文峰
申请(专利权)人:根尖体育科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1