【技术实现步骤摘要】
手语识别系统
本专利技术涉及手语识别
,尤其涉及一种手语识别系统。
技术介绍
手语识别是聋人社群进行沟通交流的主要语言。作为一门视觉化的语言,手语具有丰富的词汇和完备的语法。但是在日常生活中,听人由于缺少专业知识,很难看懂聋人的手语所表达的内容。这种沟通障碍给聋人日常生活带来了不便,尤其是在医院、银行、车站等公共场合。为了实现聋人和听人的自由沟通,手语识别是其中非常重要的技术环节。手语的表达主要依赖于手势的变化,但不局限于此。为了高效地表达含义,手语同时利用了手部线索以及非手部线索。其中,手部线索包括双手的形状、位置、姿态、朝向以及运动轨迹。非手部线索包括眼睛的注视方向、唇部的形状、脸部的表情以及身体的姿态。通过多种线索的外观变化、切换和运动,手语得以实现形象化、语法化的语言表达。手语识别是指录制一段含有完整手语句子的视频,通过算法识别其表达的多个连续手语词汇,并连接成句。手语识别系统主要分为三个部分,分别是特征表达模块、时序建模模块以及序列解码模块。特征表达模块负责分析并描绘RGB视频帧中的关键视觉信 ...
【技术保护点】
1.一种手语识别系统,其特征在于,包括:/n空间多线索模块,对输入的手语演示视频帧序列进行特征提取与姿态识别,获得每一视频帧的中手语演示者的若干骨架关键点位置,基于骨架关键点位置获得不同的空间线索,进而提取出每个空间线索各自的特征向量;/n时间多线索模块,通过建模空间线索内的时域信息,以及不同空间线索间的时域信息,得到空间线索内特征和空间线索间特征;/n序列解码器,对空间线索内特征和空间线索间特征进行级联,通过循环卷积网络得到每一个时刻的手语词汇概率,再通过基于联结时序分类的集束解码器得到最终的预测结果,即手语句子。/n
【技术特征摘要】
1.一种手语识别系统,其特征在于,包括:
空间多线索模块,对输入的手语演示视频帧序列进行特征提取与姿态识别,获得每一视频帧的中手语演示者的若干骨架关键点位置,基于骨架关键点位置获得不同的空间线索,进而提取出每个空间线索各自的特征向量;
时间多线索模块,通过建模空间线索内的时域信息,以及不同空间线索间的时域信息,得到空间线索内特征和空间线索间特征;
序列解码器,对空间线索内特征和空间线索间特征进行级联,通过循环卷积网络得到每一个时刻的手语词汇概率,再通过基于联结时序分类的集束解码器得到最终的预测结果,即手语句子。
2.根据权利要求1所述的一种手语识别系统,其特征在于,该系统还包括:多线索序列优化算法模块,通过多种损失函数进行有权值的线性组合,实现空间多线索模块和时间多线索模块的端到端优化;损失函数包括:基于线索间特征的联结时序分类损失函数、基于线索内特征的联结时序分类损失函数、以及基于姿态估计的回归损失函数;在离线状态下对空间多线索模块和时间多线索模块中的参数进行优化,优化后系统能够直接用于在线的手语识别。
3.根据权利要求1所述的一种手语识别系统,其特征在于,所述空间多线索模块包括:深度神经网络与姿态识别模块;其中:
深度神经网络,用于对输入的手语演示视频帧序列进行特征提取,深度神经网络的中间层输出每一视频帧的特征图,最后一层输出特征向量,特征向量包含了所有骨架关键点相对位置关系,其作为表征全局特征的空间线索;
所述姿态识别模块,对每一视频帧的特征图进行识别,获得每一骨架关键点位置,所述骨架关键点包括如下一种或多种:手腕、手肘、肩部、鼻部、眼睛;
深度神经网络,还用于通过每一骨架关键点位置对相应视频帧的特征图进行裁切,裁切时,以骨架关键点位置为中心裁切固定大小的矩形框区域作为相应部位的特征图,不同部位的特征图组成不同的空间线索;将每个空间线索通过各自的多层卷积神经网...
【专利技术属性】
技术研发人员:李厚强,周文罡,周浩,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。