孤立手语词特征提取器、提取方法、识别模型及方法技术

技术编号:32529867 阅读:16 留言:0更新日期:2022-03-05 11:23
本发明专利技术公开了一种孤立手语词特征向量提取方法、提取器、识别方法及模型,通过2DCNN

【技术实现步骤摘要】
孤立手语词特征提取器、提取方法、识别模型及方法


[0001]本专利技术属于手语词识别领域,特别涉及一种孤立手语词特征提取器、提取方法、识别模型及方法。

技术介绍

[0002]手语是聋哑人的主要表达方式,它作为一种语言,已逐渐为人们所接受。然而大多数健听人并不懂手语,造成了聋哑人与健听人之间的沟通困难,以至于聋哑人融入正常社会生活存在着诸多不便。
[0003]鉴于经济社会为了对聋哑群体更加悉心关照而产生了对实用化手语识别系统的迫切需求,若能充分利用现有的先进技术,结合手语识别最新研究成果,设计一款手语识别系统,将一定程度上促进手语识别技术的发展,加快手语识别从实验室研究走向实地应用的进程,进而促进聋哑公益事业的发展。
[0004]孤立手语词识别是连续手语词识别的基础,良好的孤立手语词识别算法能够提高连续手语词识别的精度与鲁棒性,因此孤立手语词识别成为手语识别领域的一个重点。孤立词识别的输入数据是一段视频,根据手语者速度的不同通常包含若干帧,但关键帧通常不超过6帧。
[0005]目前孤立词手语识别常用的技术方案包括使用3DCNN作为特征提取器,将输入的图像序列转化成特征向量形式,这种特征提取器能够捕捉帧间的快速移动尤其是手部运动,但参数量巨大,计算耗时,对硬件平台要求较高。而对于特征向量如何转化成词汇的问题,有研究者将特征向量序列输入HMM或RNN,最终生成词汇,这种方式能够进一步提取图像序列特征,但缺点是模型复杂且计算耗时。
[0006]也有研究者直接使用2DCNN作为特征提取器,生成特征向量,接着输入RNN进而生成词汇。这种方法虽然模型简单计算速度极快,但忽略了浅层特征的时序性,只在最后提取序列特征,造成鲁棒性差、识别精度低。
[0007]综上,采用3DCNN的手语识别模型参数量大、计算耗时,而采用2DCNN的手语识别模型无法有效提取手部运动特征导致识别效果差。

技术实现思路

[0008]本专利技术的目的在于,针对上述现有技术的不足,提供一种孤立手语词特征提取器、提取方法、识别模型及方法,融合了2DCNN和3DCNN二者的优点,既不会导致计算量过于庞大,又可以有效提取手部运动特征,大大提高运算速度;同时,摒弃了RNN这种计算较耗时的结构,直接全局平均池化生成特征向量。
[0009]为解决上述技术问题,本专利技术所采用的技术方案是:
[0010]一种孤立手语词特征提取器,其特点是包括:
[0011]输入层,用于获取待识别的孤立手语视频中的多帧图像;
[0012]N个依次堆叠的融合块,其中,各融合块包括一第一2DCNN、一第一3DCNN、一融合
层、一第二2DCNN;第一2DCNN用于通过输入层接收连续3帧图像中的首帧图像并对其进行2D卷积处理,第一3DCNN用于通过输入层接收连续3帧图像并对其进行3D卷积处理;融合层用于对第一2DCNN和第一3DCNN输出的图像帧相加处理;第二2DCNN用于对相加处理后的图像做2D卷积处理;
[0013]全局平均池化层,用于对第二2DCNN输出的图像进行全局平均池化处理,并输出特征向量。
[0014]进一步地,还包括预处理模块,用于从原始待识别的孤立手语视频中获取图像帧并预处理后再送至输入层。
[0015]进一步地,所述预处理模块包括关键点识别模块和截取模块;
[0016]关键点识别模块:用于识别原始获取的第一帧图像中人体上半身关键点并获得人体中心;
[0017]截取模块:用于以人体中心为中心向外周截取设定大小的图像并作为最终输入送至输入层。
[0018]进一步地,所述输入层和首个融合块之间还设有第二3DCNN,用于对输入层送至融合块的多帧图像进行3D卷积处理以减少计算量。
[0019]优选地,融合块的数量为4。
[0020]优选地,所述截取模块用于以人体中心为中心向外周截取224x224大小的图像并作为最终输入送至输入层。
[0021]基于同一个专利技术构思,本专利技术还提供了一种孤立手语词特征提取方法,其特点是包括:
[0022]将待识别的孤立手语词视频输入所述的孤立手语词特征提取器,获得孤立手语词特征向量。
[0023]基于同一个专利技术构思,本专利技术还提供了一种孤立手语词识别模型,其特点是包括所述的孤立手语词特征提取器。
[0024]进一步地,还包括全连接层,全局平均池化层的输出端与全连接层的输入端相连,且全连接层用于对全局平均池化层输出的特征向量进行分类并输出识别获得的孤立手语词。
[0025]基于同一个专利技术构思,本专利技术还提供了一种孤立手语词识别方法,其特点是将待识别的孤立手语词视频输入所述的孤立手语词识别模型,获得孤立手语词。
[0026]与现有技术相比,本专利技术通过2DCNN

3DCNN融合的网络模型,能够从手语视频中识别出所对应的孤立手语词;模型既强化了平面特征的提取,又可一定程度上避免3DCNN参数量过大的问题。本专利技术结合了2DCNN和3DCNN优点,总体网络结构层次分明,结构简单,不仅运算速度快,模型参数量少,而且能够捕捉手部运动特征,非常适合于手语识别这种整体运动量不大,但局部运动量相对较大的场合。
附图说明
[0027]图1为人体上半身关键点定义图。
[0028]图2为融合块一实施例的结构示意图。
[0029]图3为融合块一实施例的参数设置图。
[0030]图4为孤立手语词识别模型一实施例的结构图。
[0031]图5为利用本专利技术获得的可视化中间特征图。
[0032]图6为本专利技术的整个系统程序流程图。
[0033]其中,1为输入层,2、2'、2”、2”'为融合块,201为第一2DCNN,202为第一3DCNN,203为融合层,204为第二2DCNN,3为第二3DCNN,4为全局平均池化层,5为全连接层。
具体实施方式
[0034]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0035]一种孤立手语词特征提取器,包括:
[0036]输入层1,用于获取待识别的孤立手语视频中的多帧图像。
[0037]4个依次堆叠的融合块MergeBlock2、2'、2”、2”',其中,各融合块2、2'、2”、2”'包括一第一2DCNN201、一第一3DCNN202、一融合层203、一第二2DCNN204;第一2DCNN201用于通过输入层1接收连续3帧图像中的首帧图像并对其进行2D卷积处理,第一3DCNN202用于通过输入层1接收连续3帧图像并对其进行3D卷积处理;融合层203用于对第一2DCNN201和第一3DCNN202输出的图像帧相加处理;第二2DCNN204用于对相加处理后的图像做2D卷积处理。
[0038]全局平均池化层4,用于对第二2DCNN204输出的图像进行全局平均池化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种孤立手语词特征提取器,其特征在于,包括:输入层(1),用于获取待识别的孤立手语视频中的多帧图像;N个依次堆叠的融合块(2、2'、2”、2”'),其中,各融合块(2、2'、2”、2”')包括一第一2DCNN(201)、一第一3DCNN(202)、一融合层(203)、一第二2DCNN(204);第一2DCNN(201)用于通过输入层(1)接收连续3帧图像中的首帧图像并对其进行2D卷积处理,第一3DCNN(202)用于通过输入层(1)接收连续3帧图像并对其进行3D卷积处理;融合层(203)用于对第一2DCNN(201)和第一3DCNN(202)输出的图像帧相加处理;第二2DCNN(204)用于对相加处理后的图像做2D卷积处理;全局平均池化层(4),用于对第二2DCNN(204)输出的图像进行全局平均池化处理,并输出特征向量。2.如权利要求1所述的孤立手语词特征提取器,其特征在于,还包括预处理模块,用于从原始待识别的孤立手语视频中获取图像帧并预处理后再送至输入层(1)。3.如权利要求2所述的孤立手语词特征提取器,其特征在于,所述预处理模块包括关键点识别模块和截取模块;关键点识别模块:用于识别原始获取的第一帧图像中人体上半身关键点并获得人体中心;截取模块:用于以人体中心为中心向外周截取设定大小的图像并作为最终...

【专利技术属性】
技术研发人员:徐强辜嘉吴宗正李凌宋凯旋
申请(专利权)人:苏州中科先进技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1