一种基于Transformer和示例咨询的在线行为识别方法技术

技术编号:39434985 阅读:9 留言:0更新日期:2023-11-19 16:18
本发明专利技术提供了一种基于Transformer和示例咨询的在线行为识别方法,包括以下步骤:步骤S1、获取视频流解码后的图像序列;步骤S2、将特征序列进行位置编码,获得长时和短时特征向量;步骤S3、获得可用于解码的潜在上下文特征;步骤S4、利用解码器对潜在上下文特征和短时位置编码向量进行融合特征编码和转换,获得最终的特征序列,并对最终输出进行类别分类;步骤S5、将当前帧特征与类别示例进行比较得到类别特征,将类别特征与当前特征进行融合计算得到类别分类;步骤S6、将两个分支的得分进行融合得到最终分类结果。应用本技术方案可实现对视频流进行实时动作识别,同时具有较高的速度和准确率。准确率。准确率。

【技术实现步骤摘要】
一种基于Transformer和示例咨询的在线行为识别方法


[0001]本专利技术涉及动作识别
,特别是一种基于
Transformer
和示例咨询的在线行为识别方法


技术介绍

[0002]随着移动通信的发展,视频已成为记录生活和转换信息的强大媒介

因此,视频理解技术引起了越来越多的研究兴趣

其中,以人为核心的行为识别是视频理解任务中的重要组成部分

[0003]视频监控系统由于其安全

稳定的性能被广泛用于安防

智慧工地

智能家居等各种场合

伴随着社会的进步和发展,基于监控视频的行为识别是计算机视觉领域的一个重要研究方向,在智能视频监控

运动行为评估

步态识别等方面有着巨大的应用潜力

其中,人员的行为识别作为监控视频的主体目标,应用深度学习模型和图像识别算法识别人员行为,可以有效地提升视频监控系统的自动化和智能化程度

[0004]目前,基于监控视频的行为识别方法为直接对原始视频进行识别,截取静态图像的简单动作分类,但是在实际应用当中,由于监控场景的复杂性

人员的密集性

背景干扰

环境光照以及遮挡等问题,该类方法容易忽略视频中过多的有效信息,识别精度低,并且处理视频周期长,实时性差,难以应用到实际场景中

[0005]因此,现有的基于监控视频的行为识别方法普遍存在识别精度低,实时性差的技术问题


技术实现思路

[0006]有鉴于此,本专利技术的目的在于提供一种基于
Transformer
和示例咨询的在线行为识别方法,可以对视频流进行实时动作识别,同时具有较高的速度和准确率

[0007]为实现上述目的,本专利技术采用如下技术方案:一种基于
Transformer
和示例咨询的在线行为识别方法,包括以下步骤:
[0008]步骤
S1、
获取视频流解码后的图像序列,并对图像序列进行预处理得到图像特征序列,并维护一个工作帧队列;
[0009]步骤
S2、
将特征序列进行位置编码,获得长时和短时特征向量;
[0010]步骤
S3、
利用编码器对长时位置编码向量进行特征编码和特征转换,获得可用于解码的潜在上下文特征;
[0011]步骤
S4、
利用解码器对潜在上下文特征和短时位置编码向量进行融合特征编码和转换,获得最终的特征序列,并对最终输出进行类别分类;
[0012]步骤
S5、
将当前帧特征与类别示例进行比较得到类别特征,将类别特征与当前特征进行融合计算得到类别分类;
[0013]步骤
S6、
将两个分支的得分进行融合得到最终分类结果

[0014]在一较佳的实施例中,步骤1中,视频流解码后得到图像经过特征提取器得到图像
特征,特征提取器采用
TSNKinetics
上预训练的双流网络,得到
RGB
特征和光流特征;工作队列
Q
W

(F
i

n+1
,

,F
i
‑1,F
i
)
,其中
F
i
表示当前帧的图像特征,
F
i

t
表示当前帧之前第
t
帧的图像特征;当新的一帧进去时,最早进去的帧被移除工作队列

[0015]在一较佳的实施例中,步骤2中,将工作队列
Q
W
分为两部分,其中
Q
L

(F
i

n+1
,

,F
i

s
),Q
s

(F
i

s+1
,

,F
i
‑1,F
i
)
,其中
Q
L
>>
Q
s
;将特征序列分别经过线性变换层,并使用
ReLU
函数激活,得到特征向量序列;将特征向量序列经过位置编码得到位置编码向量序列,包括长时位置编码向量
p
L
和短时位置编码向量
p
S

[0016][0017]t
表示该帧在队列中的位置

[0018]在一较佳的实施例中,步骤3中,将长时位置编码向量和词嵌入向量输入到编码器中进行编码,编码器包含多个
Transformer Decoder Unit
;将长时位置编码向量序列中的特征经过线性变换矩阵,并进一步提取信息;获取查询矩阵
Q、
关键词矩阵
K
及值矩阵
V
,并进行多头自注意力计算;最终得到潜在上下文特征;
[0019][0020]d
k

Q,K
矩阵的列数,即向量维度;矩阵
Q,K,V
是通过
Self

Attention
的输入矩阵使用线性变阵矩阵计算得到;
[0021]一个
Transformer Decoder Unit
包含以下过程;
[0022][0023]Q1=
LayerNorm(E1+Q1)
[0024][0025]tgt

LayerNorm(Q1+tgt)
[0026]tgt

LayerNorm(tgt+Feedward(tgt))
[0027]d
k

Q,K
矩阵的列数,即向量维度;矩阵
K,V
是通过
Self

Attention
的输入矩阵使用线性变阵矩阵计算得到;
Feed Forward
层是一个两层的全连接层,第一层的激活函数为
Relu
,第二层不使用激活函数;
[0028]Q2,Q3的计算与
Q1相同;
tgt
作为下一个
Transformer DecoderUnit
输入的
K,V
;最终得到潜在上下文特征
Em。
[0029]在一较佳的实施例中,步骤4中,解码器包含多个
Transformer DecoderUnit
,将潜在上下文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
Transformer
和示例咨询的在线行为识别方法,其特征在于,包括以下步骤:步骤
S1、
获取视频流解码后的图像序列,并对图像序列进行预处理得到图像特征序列,并维护一个工作帧队列;步骤
S2、
将特征序列进行位置编码,获得长时和短时特征向量;步骤
S3、
利用编码器对长时位置编码向量进行特征编码和特征转换,获得可用于解码的潜在上下文特征;步骤
S4、
利用解码器对潜在上下文特征和短时位置编码向量进行融合特征编码和转换,获得最终的特征序列,并对最终输出进行类别分类;步骤
S5、
将当前帧特征与类别示例进行比较得到类别特征,将类别特征与当前特征进行融合计算得到类别分类;步骤
S6、
将两个分支的得分进行融合得到最终分类结果
。2.
根据权利要求1所述的一种基于
Transformer
和示例咨询的在线行为识别方法,其特征在于,步骤1中,视频流解码后得到图像经过特征提取器得到图像特征,特征提取器采用
TSNKinetics
上预训练的双流网络,得到
RGB
特征和光流特征;工作队列
Q
W

(F
i

n+1
,

,F
i
‑1,F
i
)
,其中
F
i
表示当前帧的图像特征,
F
i

t
表示当前帧之前第
t
帧的图像特征;当新的一帧进去时,最早进去的帧被移除工作队列
。3.
根据权利要求1所述的一种基于
Transformer
和示例咨询的在线行为识别方法,其特征在于,步骤2中,将工作队列
Q
W
分为两部分,其中
Q
L

F
i

n+1
,

,F
i

s
),Q
s

(F
i

s+1
,

,F
i
‑1,F
i
)
,其中
Q
L
>>
Q
s
;将特征序列分别经过线性变换层,并使用
ReLU
函数激活,得到特征向量序列;将特征向量序列经过位置编码得到位置编码向量序列,包括长时位置编码向量
p
L
和短时位置编码向量
p
S

t
表示该帧在队列中的位置
。4.
根据权利要求1所述的一种基于
Transformer
和示例咨询的在线行为识别方法,其特征在于,步骤3中,将长时位置编码向量和词嵌入向量输入到编码器中进行编码,编码器包含多个
Transformer Decoder Unit
;将长时位置编码向量序列中的特征经过线性变换矩阵,并进一步提取信息;获取查询矩阵
Q、
关键词矩阵
K
及值矩阵
V
,并进行多头自注意力计算;最终得到潜在上下文特征;
d
k

Q,K
矩阵的列数,即向量维度;矩阵
Q,K,V
是通过
Self

Attention
的输入矩阵使用线性变阵矩阵计算得到;一个
Transformer Decoder Unit
包含以下过程;
Q1=
LayerNorm(E1+Q1)
tgt

LayerNorm(Q1+tgt)tgt

LayerNorm(tgt+Feedward(tgt))d
k

Q,K
矩阵的列数,即向量维度;矩阵
K,V
是通过
Self

Attention
的输入矩阵使用线性变阵矩阵计算得到;
Feed Forward
层是一个两层的全连接层,第一层的激...

【专利技术属性】
技术研发人员:郭一晶张宏磊杜小甫王华伟陈宗佑
申请(专利权)人:平和县嗨果匠果业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1