当前位置: 首页 > 专利查询>中南大学专利>正文

基于深度学习的手语词汇识别方法、系统、设备及介质技术方案

技术编号:36958335 阅读:53 留言:0更新日期:2023-03-22 19:18
本发明专利技术公开了基于深度学习的手语词汇识别方法、系统、设备及介质,本方法通过获取手语视频;将手语视频输入至训练好的人体姿态估计网络模型中进行第一特征提取,获得手语视频中的heatmap图;通过基于时序轻量的特征快速筛选模型进行第二特征提取,获得heatmap空间特征;将heatmap空间特征进行人体关键点信息的空间特征筛选,获得人体关键点空间特征;通过带有attention机制的双向LSTM时间序列模型进行特征学习,获得手语视频学习结果;通过全连接层和softmax层进行分类和编码,获得手语视频分类编码结果;根据手语视频分类编码结果,查询得到手语词汇识别结果。本发明专利技术能够提高手语识别的准确度。语识别的准确度。语识别的准确度。

【技术实现步骤摘要】
基于深度学习的手语词汇识别方法、系统、设备及介质


[0001]本专利技术涉及手语识别
,尤其是涉及基于深度学习的手语词汇识别方法、系统、设备及介质。

技术介绍

[0002]目前现有的手语词汇识别模型主要采用基于RGB模态信息和骨骼关键点坐标位置做识别,而从RGB信息中有效提取手语动作信息需要较深的神经网络,这不仅增大了模型的计算量,而且很难达到实时的效果。
[0003]现有的手语词汇识别网络基于序列模型如LSTM,transformer等的网络大多在输入前未将时序上视频冗余信息预筛选,而是直接让序列网络直接学习有效特征,一般30fps视频序列中帧与帧之间的差异是十分小的,为了降低来自视频的冗余信息,在输入序列模型之前先对序列信息进行快速压缩,这样的技术方法会降低模型的学习能力,从而降低手语识别的准确度。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出基于深度学习的手语词汇识别方法、系统、设备及介质,能够提高模型的学习能力,提高手语识别的准确度。
[0005]第一方面,本专利技术实施例提供了一种基于深度学习的手语词汇识别方法,所述基于深度学习的手语词汇识别方法包括:
[0006]获取手语视频;
[0007]将所述手语视频输入至训练好的人体姿态估计网络模型中进行第一特征提取,获得所述人体姿态估计网络模型输出的手语视频中的heatmap图;
[0008]通过基于时序轻量的特征快速筛选模型对所述heatmap图进行第二特征提取,获得heatmap空间特征;
[0009]将所述heatmap空间特征进行人体关键点信息的空间特征筛选,获得人体关键点空间特征;
[0010]将所述人体关键点空间特征通过带有attention机制的双向LSTM时间序列模型进行特征学习,获得所述带有attention机制的双向LSTM时间序列模型输出的手语视频学习结果;
[0011]将所述手语视频学习结果通过全连接层和softmax层进行分类和编码,获得手语视频分类编码结果;
[0012]根据所述手语视频分类编码结果,查询得到手语词汇识别结果。
[0013]与现有技术相比,本专利技术第一方面具有以下有益效果:
[0014]本方法通过获取手语视频;将手语视频输入至训练好的人体姿态估计网络模型中进行第一特征提取,获得人体姿态估计网络模型输出的手语视频中的heatmap图;通过基于
时序轻量的特征快速筛选模型对heatmap图进行第二特征提取,获得heatmap空间特征。本方法通过基于时序轻量的特征快速筛选模型对heatmap图进行特征提取,能够提高手语识别的速度,减少计算量。将heatmap空间特征进行人体关键点信息的空间特征筛选,获得人体关键点空间特征;将人体关键点空间特征通过带有attention机制的双向LSTM时间序列模型进行特征学习,获得带有attention机制的双向LSTM时间序列模型输出的手语视频学习结果;将手语视频学习结果通过全连接层和softmax层进行分类和编码,获得手语视频分类编码结果;根据手语视频分类编码结果,查询得到手语词汇识别结果。本方法通过特征筛选和学习能够提高模型的学习能力,并且通过提取手语视频中的heatmap图,基于heatmap图进行特征提取和特征学习,而不是直接提取人体关键点位置的坐标信息作为特征信息,从而增加了动作嵌入特征信息的准确程度,能够提高手语识别的准确度。
[0015]根据本专利技术的一些实施例,在所述将所述手语视频输入至训练好的人体姿态估计网络模型中进行第一特征提取之前,所述基于深度学习的手语词汇识别方法还包括:
[0016]预设所述手语视频中的理想帧数量;
[0017]若所述手语视频中的帧数量小于所述理想帧数量,对所述理想帧数量进行空白帧填充,得到处理后的手语视频,所述处理后的手语视频中的帧数量大于或等于所述理想帧数量。
[0018]根据本专利技术的一些实施例,所述人体关键点的选取包括:在人体上选取鼻子、眼睛、耳朵、手臂以及手指上的多个关键点。
[0019]根据本专利技术的一些实施例,所述通过基于时序轻量的特征快速筛选模型对所述heatmap图进行第二特征提取,获得heatmap空间特征,包括:
[0020]通过视频帧序列对应的多通道输入所述heatmap图;
[0021]对所述heatmap图经过二维自适应平均池化、全连接层以及Relu激活函数激活,获得全局heatmap时序特征;
[0022]对所述heatmap图在时序维度经过第一分组卷积、批归一化、Relu激活函数激活以及第二分组卷积,获得局部heatmap时序特征;
[0023]将所述全局heatmap时序特征和所述局部heatmap时序特征相加,获得相加的heatmap时序特征;
[0024]采用Sigmoid激活函数对所述相加的heatmap时序特征进行激活,生成所述相加的heatmap时序特征对应的帧权值;
[0025]将所述帧权值与输入的所述heatmap图对应相乘,获得heatmap空间特征。
[0026]根据本专利技术的一些实施例,所述将所述heatmap空间特征进行人体关键点信息的空间特征筛选,获得人体关键点空间特征,包括:
[0027]将尺寸为BxTxCxHxW的heatmap空间特征中的时序维度T和所述人体关键点的通道维度C进行合并,获得尺寸为Bx(T*C)xHxW的heatmap空间特征,其中,B表示训练或推理数据时一次性计算的数据条目数量,H表示heatmap的高,W表示heatmap的宽;
[0028]对所述尺寸为Bx(T*C)xHxW的heatmap空间特征以所述人体关键点的通道维度C为分组进行第一分组卷积,获得尺寸为BxCxHxW的heatmap空间特征;
[0029]对所述尺寸为BxCxHxW的heatmap空间特征经过批归一化、Relu激活函数激活以及以所述人体关键点的通道维度C为分组进行的第二分组卷积,获得局部heatmap空间特征;
[0030]对所述尺寸为Bx(T*C)xHxW的heatmap空间特征经过自适应平均池化和卷积,获得全局heatmap空间特征;
[0031]将所述局部heatmap空间特征和所述全局heatmap空间特征进行数值对应相乘,获得相乘的heatmap空间特征;
[0032]对所述相乘的heatmap空间特征经过以所述人体关键点的通道维度C为分组进行的第三分组卷积和Mish激活函数激活,获得人体关键点空间特征。
[0033]根据本专利技术的一些实施例,在所述将所述人体关键点空间特征通过带有attention机制的双向LSTM时间序列模型进行特征学习之前,所述基于深度学习的手语词汇识别方法还包括:
[0034]对所述人体关键点空间特征经过Dropout随机失活和全连接层降维处理。
[0035]根据本专利技术的一些实施例,所述根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的手语词汇识别方法,其特征在于,所述基于深度学习的手语词汇识别方法包括:获取手语视频;将所述手语视频输入至训练好的人体姿态估计网络模型中进行第一特征提取,获得所述人体姿态估计网络模型输出的手语视频中的heatmap图;通过基于时序轻量的特征快速筛选模型对所述heatmap图进行第二特征提取,获得heatmap空间特征;将所述heatmap空间特征进行人体关键点信息的空间特征筛选,获得人体关键点空间特征;将所述人体关键点空间特征通过带有attention机制的双向LSTM时间序列模型进行特征学习,获得所述带有attention机制的双向LSTM时间序列模型输出的手语视频学习结果;将所述手语视频学习结果通过全连接层和softmax层进行分类和编码,获得手语视频分类编码结果;根据所述手语视频分类编码结果,查询得到手语词汇识别结果。2.根据权利要求1所述基于深度学习的手语词汇识别方法,其特征在于,在所述将所述手语视频输入至训练好的人体姿态估计网络模型中进行第一特征提取之前,所述基于深度学习的手语词汇识别方法还包括:预设所述手语视频中的理想帧数量;若所述手语视频中的帧数量小于所述理想帧数量,对所述理想帧数量进行空白帧填充,得到处理后的手语视频,所述处理后的手语视频中的帧数量大于或等于所述理想帧数量。3.根据权利要求1所述基于深度学习的手语词汇识别方法,其特征在于,所述人体关键点的选取包括:在人体上选取鼻子、眼睛、耳朵、手臂以及手指上的多个关键点。4.根据权利要求1所述基于深度学习的手语词汇识别方法,其特征在于,所述通过基于时序轻量的特征快速筛选模型对所述heatmap图进行第二特征提取,获得heatmap空间特征,包括:通过视频帧序列对应的多通道输入所述heatmap图;对所述heatmap图经过二维自适应平均池化、全连接层以及Relu激活函数激活,获得全局heatmap时序特征;对所述heatmap图在时序维度经过第一分组卷积、批归一化、Relu激活函数激活以及第二分组卷积,获得局部heatmap时序特征;将所述全局heatmap时序特征和所述局部heatmap时序特征相加,获得相加的heatmap时序特征;采用Sigmoid激活函数对所述相加的heatmap时序特征进行激活,生成所述相加的heatmap时序特征对应的帧权值;将所述帧权值与输入的所述heatmap图对应相乘,获得heatmap空间特征。5.根据权利要求4所述基于深度学习的手语词汇识别方法,其特征在于,所述将所述heatmap空间特征进行人体关键点信息的空间特征筛选,获得人体关键点空间特征,包括:将尺寸为BxTxCxHxW的heatmap空间特征中的时序维度T和所述人体关键点的通道维度
C进行合并,获得尺寸为Bx(T*C)xHxW的heatmap空间特征,其中,B表示训练或推理数据时一次性计算的数据条目数量,H表示heatmap的高,W表示heatmap的宽;对所述尺寸为Bx(T*C)xHxW的heatmap空间特征以所述人体关键点的通道...

【专利技术属性】
技术研发人员:张昊刘增辉林立新孙意翔肖婴然李昆霖
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1