手语识别方法及装置制造方法及图纸

技术编号:39394907 阅读:13 留言:0更新日期:2023-11-19 15:50
本发明专利技术提供了一种手语识别方法及装置,涉及识别的技术领域,所述方法包括;利用R(2+1)D卷积神经网络提取手语视频帧的时空特征;将手语视频帧的时空特征输入至BILSTM网络以获取全局时空特征以及局部时空特征;将手语视频帧的时间特征、所述空间特征、所述局部时序特征以及所述全局时序特征输入至全连接层并进行分类输出,以输出局部特征概率矩阵以及全局特征概率矩阵;利用所述全局特征概率矩阵以及局部特征概率矩阵计算CTC散度损失,并利用所述CTC损失以及l

【技术实现步骤摘要】
手语识别方法及装置


[0001]本专利技术涉及手语识别的
,尤其是涉及一种手语识别方法及装置。

技术介绍

[0002]目前,手语识别主流框架2D

CNN应用于视频的单个帧,在手语识别中保持了良好的表现。考虑到视频的时空上下文特性,连续手语识别应充分利用视频的视觉信息和时序信息来获取有效的时空表达。但2D

CNN只能用于空间特征的提取,而缺乏时序特征的提取,且其无论应用于单帧还是多帧,输出都是二维向量,因此对视频进行表达时就会丢失时间序列的信息。
[0003]综上所述,目前手语识别方法容易丢失时间序列信息。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种手语识别方法及装置,以缓解手语识别方法容易丢失时间序列信息的技术问题。
[0005]第一方面,本专利技术实施例提供了一种手语识别方法,具体包括如下步骤:
[0006]利用R(2+1)D卷积神经网络提取手语视频帧的时空特征;
[0007]将手语视频帧的时空特征输入至BILSTM网络以获取全局时空特征以及局部时空特征;
[0008]将手语视频帧的时间特征、所述空间特征、所述局部时序特征以及所述全局时序特征输入至全连接层并进行分类输出,以输出局部特征概率矩阵以及全局特征概率矩阵;
[0009]利用所述全局特征概率矩阵以及局部特征概率矩阵计算CTC散度损失,并利用所述CTC损失以及散度损失构建目标函数;
[0010]利用所述目标函数对所述连续手语识别系统进行训练;
[0011]所述连续手语识别系统包括R(2+1)D卷积神经网络、BILSTM网络、全连接层。
[0012]一种可能的方式是,所述利用R(2+1)D卷积神经网络提取手语视频帧的时空特征的步骤包括:
[0013]将手语视频帧输入至3D卷积核以及Relu层中以提取空间特征;
[0014]将空间特征输入至3D卷积核以及Relu层中以提取手语视频帧的时空特征;
[0015]将利用最大池化层消除手语视频帧的时空特征的冗余。
[0016]一种可能的方式是,所述方法还包括:
[0017]对去除冗余的时空特征进行下采样。
[0018]一种可能的方式是,所述目标函数包括:利用所述全局特征概率矩阵以及局部特征概率矩阵计算CTC散度损失,并利用所述CTC损失以及散度损失构建目标函数的步骤包括:
[0019]采用如下公式:
[0020][0021]‑
目标函数;
[0022]‑
CTC损失;
[0023]‑
散度损失;
[0024]α

超参数;
[0025]其中,
[0026][0027][0028][0029][0030]p(∏|Y
global_t
)、p(∏|Y
local_t
)分别表示输入为Y
global_t
、Y
local_t
时输出路径∏的条件概率;
[0031]π=(π1,...,π
i
,...,π
s
)表示所有可能路径的合集;
[0032]θ表示手语视频中所有句子包含的单词;
[0033]P(l|Y
global_t
)、P(l|Y
local_t
)为所有可能路径的条件概率之和;
[0034][0035]其中,
[0036][0037]其中,分别代表全局特征概率矩阵以及局部特征概率矩阵t个向量的第m个概率值;
[0038]和表示全连接层输出特征FC
global
和FC
local
中的第t个向量的第m个概率值;
[0039]M表示概率值的数量。
[0040]一种可能的方式是,所述将手语视频帧输入至3D卷积核以及Relu层中以提取空间特征的步骤中,具体采用如下公式:
[0041][0042]Z
s
=f
Convst_s
(Y);
[0043]Permute

Permute函数;
[0044]X

手语视频帧;
[0045]f
Convst_s

f
Convst_s
函数;
[0046]Z
s

空间特征。
[0047]一种可能的方式是,所述将空间特征输入至3D卷积核以及Relu层中以提取手语视频帧的时空特征的步骤中,具体采用如下公式:
[0048]Z

t
=relu(BN(f
Convst_t
(Z

s
)));
[0049]Z

s
=relu(Z

s
);
[0050][0051]BN

归一化函数;
[0052]Z
a

空间特征;
[0053]relu

激活函数;
[0054]Z

s

归一化后的空间特征经relu函数激活的结果。
[0055]一种可能的方式是,所述局部特征概率矩阵包括:
[0056][0057]softmax(
·
)

激活函数;
[0058]FC
local

全连接层输出的局部时序特征;
[0059]所述全局特征概率矩阵包括:
[0060][0061]FC
global

全连接层输出的全局时序特征;
[0062]分别表示局部分类概率矩阵Y
local
、全局分类概率矩阵Y
global
中的第t个向量;
[0063]T

温度.
[0064]第二方面,本专利技术提供了一种手语识别装置,包括:
[0065]时空特征提取模块:用于利用R(2+1)D卷积神经网络提取手语视频帧的时空特征;
[0066]全局

局部特征提取模块:用于将手语视频帧的时空特征输入至BILSTM网络以获取全局时空特征以及局部时空特征;
[0067]概率分布确定模块:用于将手语视频帧的时间特征、所述空间特征、所述局部时序特征以及所述全局时序特征输入互全连接层并进行分类输出,以输出局部特征概率矩阵以及全局特征概率矩阵;
[0068]目标函数构建模块:用于利用所述全局特征概率矩阵以及局部特征概率矩阵计算CTC散度损失,并利用所述CTC损失以及散度损失构建目标函数;
[0069]训练模块:利用所述目标函数对所述连续手语识别系统进行训练,
...

【技术保护点】

【技术特征摘要】
1.一种手语识别方法,其特征在于,具体包括如下步骤:利用R(2+1)D卷积神经网络提取手语视频帧的时空特征;将手语视频帧的时空特征输入至BILSTM网络以获取全局时空特征以及局部时空特征;将手语视频帧的时间特征、所述空间特征、所述局部时序特征以及所述全局时序特征输入至全连接层并进行分类输出,以输出局部特征概率矩阵以及全局特征概率矩阵;利用所述全局特征概率矩阵以及局部特征概率矩阵计算CTC散度损失,并利用所述CTC损失以及散度损失构建目标函数;利用所述目标函数对所述连续手语识别系统进行训练;所述连续手语识别系统包括R(2+1)D卷积神经网络、BILSTM网络、全连接层。2.根据权利要求1所述的方法,其特征在于,所述利用R(2+1)D卷积神经网络提取手语视频帧的时空特征的步骤包括:将手语视频帧输入至3D卷积核以及Relu层中以提取空间特征;将空间特征输入至3D卷积核以及Relu层中以提取手语视频帧的时空特征;将利用最大池化层消除手语视频帧的时空特征的冗余。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对去除冗余的时空特征进行下采样。4.根据权利要求1所述的方法,其特征在于,所述目标函数包括:利用所述全局特征概率矩阵以及局部特征概率矩阵计算CTC散度损失,并利用所述CTC损失以及散度损失构建目标函数的步骤包括:采用如下公式:采用如下公式:

目标函数;

CTC损失;

散度损失;α

超参数;其中,其中,其中,其中,其中,p(∏|Y
global_t
;θ)、p(∏|Y
local_t
;θ)分别表示输入为Y
global_t
、Y
local_t
时输出路径∏的条件概率;π=(π1,...,π
i
,...,π
s
)表示所有可能路径的合集;θ表示手语视频中所有句子包含的单词;P(l|Y
global_t
)、P(l|Y
local_t
)为所有可能路径的条件概率之和;
其中,其中,其中,分别代表全局特征概率矩阵以及局部特征概率矩阵t个向量的第m个概率值;和表示全连接层输出特征FC
global
和FC
local
中的第t个向量的第m个概率值;M表示概率值的数量。5.根据权利要求2所述的方法,其特征在于,所述将手语视频帧输入至3D卷积核以及Relu层中以提取空间特征的步骤中,具体采用如下公式:Z

【专利技术属性】
技术研发人员:陈胜勇孙悦薛万利袁甜甜
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1