一种基于制造技术

技术编号：39777711 阅读：8 留言：0更新日期：2023-12-22 02:23

本发明专利技术针对现实场景中一些行为识别任务需要短时或实时地给出结果，提出了以

全部详细技术资料下载

【技术实现步骤摘要】
一种基于RGB数据和骨骼数据的双模态在线人体行为检测方法

[0001]本专利技术涉及在线人体行为检测领域，尤其涉及基于视频的人体行为识别领域，具体是一种基于
RGB
数据及骨骼热图数据的在线人体行为检测方法
。

技术介绍

[0002]人类的每一个动作，无论多么微不足道，都是为了某种目的而做的
。
例如，在医疗监护场景中，为了完成一项体育锻炼，病人会用手
、
胳膊
、
腿
、
躯干等与环境进行互动并作出反应
。
无论是用肉眼还是用视觉传感器，治疗师通过查看病人的动作，可以很容易地理解病人正在锻炼，进而判断其行动是否符合康复要求
。
但在现实场景中，使用人类劳动者来监控人体行为，成本太高
。
在线人体行为检测研究的最终目标是使机器能够实时准确地理解人类行动和意图，以更好地为人类服务
。
在医疗监护场景中，使用机器代替人工识别病人的动作，可以使远程锻炼成为现实，降低医疗成本
。
除了医疗监护，在线人体行为检测其他重要的应用包括娱乐直播
、
家用安全监控等
。
因此，在线人体行为检测研究有着极高的研究价值和广阔的市场前景
。
[0003]现阶段已经有很多工作致力于在线人体行为检测算法的研究
。
这些研究大多使用循环神经网络及其变体对输入的视频流进行建模
。
因为
RNNr/>的记忆能力，其为当前帧计算的特征向量可以重新用于预测包含当前帧在内的多个时间窗口的分类标签，所以天然地适合处理在线人体行为检测问题
。Angelini
等人提出了
ActionXPose
，从二维骨骼数据中提取特征输入
LSTM
进行分类，并对遮挡和缺失数据做了针对性的处理，对遮挡场景有很高的健壮性
。Gao
等人认为在线行为检测可以被视为一个预测时间为0的行为预测的特例
。
使用
LSTM
搭建了一个用于行为预测的增强学习编码器
‑
解码器
(Reinforced Encoder
‑
Decoder
，
RED)
网络
。RED
的突出方面是采用了增强学习模块来提供序列级的监督；并设计奖励功能以鼓励系统尽可能早地做出正确预测
。
这些工作都已经取得了较为不错的成果，但
RNN
的记忆能力也导致了它的缺陷，即输出依赖于上一时刻的隐藏状态和当前时刻的输入，无法并行化计算
。Keyword Transformer
的提出和应用证明了
Transfomer
能够用于实时应用或边缘人工智能
。
因此，
Mazzia
等人提出了
Action Transformer(AcT)
，利用短时窗口的二维骨骼数据，提供一个低延迟的基于骨骼的在线人体行为检测方案
。Xu
等人提出了长短期
Transformer
，采用了长短期记忆机制来模拟视频流数据
。
使用编码器
‑
解码器结构，其中编码器利用长时窗口的粗尺度历史信息，解码器专注于短时窗口来模拟输入的细尺度特征
。LSTR
使用了光流法来提取视频流中的动态信息，将光流特征与
RGB
特征混合以提高算法的准确率
。
但是光流法计算开销较大，用时较长，因此，如何在确保准确率的同时，避免光流法带来的巨大计算开销，选择更为合适的动态信息表达，优化在线人体行为检测算法的整体性能仍是一个挑战
。

技术实现思路

[0004]本专利技术针对基于
RNNs
的在线人体行为检测算法无法并行化计算，当前时刻的输出必须依赖上一时刻的隐藏状态和当前时刻的输入
。
而基于
Transformer
的方法中，
AcT
仅使用骨骼特征，在人
‑
物交互行为中表现较差
。
同时，
AcT
仅考虑了单人行为，无法处理多人交互行为
。LSTR
使用光流与
RGB
特征融合，导致算法的运行用时急剧增加
。
因此，本专利技术针对使用
RNNs
存在难以并行化计算的问题，使用长短期
Transformer
完成时序数据中的建模
。
针对
LSTR
中使用光流作为输入导致算法运行用时较长的问题，本专利技术提出了一种新的骨骼特征提取方式，使用骨骼特征代替光流特征作为动态信息与
RGB
提供的外观信息融合，极大地缩短了算法运行用时
。
针对公共监控对异常行为检测的需求，本专利技术创建了异常行为数据集，从开源数据集和自录制视频中收集了推搡
、
踢打他人等异常行为的视频片段生成用于在线人体行为检测的长视频
。
在该数据集上得到预训练模型后，可以满足监控系统中的安全监测需求，有较高的应用价值
。
[0005]一种基于
Transformer
的双流
RGB
和骨骼双模态在线行为检测方法，包括如下步骤：
[0006]步骤
1、
使用姿态估计算法获取
RGB
视频中的骨骼信息
。
[0007]步骤
2、
提取骨骼特征
。
[0008]步骤
3、
输入长短期
Transformer。
[0009]步骤
4、
获取网络输出，在线性分类器中映射为分类结果
。
[0010]进一步地，所述步骤1中数据拥有者使用
AlphaPose
在
COCO
‑
keypoint
关键点上预训练模型对
RGB
视频进行姿态估计
。
[0011]进一步地，所述步骤2中在获得步骤1的结果，
2D
姿态后，使用如下方式提取骨骼特征：假定有输入为
D
帧的
RGB
视频
X
rgb
∈R
D
×
H
×
W
×3。
应用姿态估计算法后，获得多人二维骨骼
X
2Dske
＝
F
2Dske
(X
rgb
)∈R
N
×
D
×
P
，其中
N
表示帧内人体数目，
P
表本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于
RGB
数据和骨骼数据的双模态在线人体行为检测方法，其特征在于，包括如下步骤：步骤
1、
使用姿态估计算法获取
RGB
视频中的骨骼信息；步骤
2、
提取骨骼特征；步骤
3、
输入长短期
Transformer
；步骤
4、
获取网络输出，在线性分类器中映射为分类结果
。2.
根据权利要求1所述的一种基于
RGB
数据和骨骼数据的双模态在线人体行为检测方法，其特征在于，所述步骤1中数据拥有者使用
AlphaPose
在
COCO
‑
keypoint
关键点上预训练模型对
RGB
视频进行姿态估计
。3.
根据权利要求1所述的一种基于
RGB
数据和骨骼数据的双模态在线人体行为检测方法，其特征在于，所述步骤2中在获得步骤1的结果，
2D
姿态后，使用如下方式提取骨骼特征：假定有输入为
D
帧的
RGB
视频
X
rgb
∈R
D
×
H
×
W
×3，应用...

【专利技术属性】
技术研发人员：陈良银，刘俊才，石静，陈彦如，张媛媛，廖俊华，赵万槟，冯康慧，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人