手势识别方法、装置和电子设备制造方法及图纸

技术编号:31581211 阅读:15 留言:0更新日期:2021-12-25 11:24
本发明专利技术实施例涉及互联网技术领域,尤其涉及一种手势识别方法、装置和电子设备。其中,上述手势识别方法包括:对接收到的手势视频数据进行采样,得到各视频帧;从所述各视频帧中识别用户手势,获取用户手势信息;从预设词库中确定与所述用户手势信息匹配的目标语言数据;向用户提供所述目标语言数据。本发明专利技术实施例中,通过对提取的视频帧中的用户手势进行识别,有效实现用户之间的无障碍沟通。有效实现用户之间的无障碍沟通。有效实现用户之间的无障碍沟通。

【技术实现步骤摘要】
手势识别方法、装置和电子设备


[0001]本专利技术实施例涉及互联网
,尤其涉及一种手势识别方法、装置和电子设备。

技术介绍

[0002]对于普通用户来说,视频通话功能的出现为用户增加了新的体验,实现了在进行通话时人们彼此可以看到对方,从而能够更方便与人沟通。
[0003]对于聋哑人来说,可以使用视频通话传达无法用电话通话表达的信息。但当使用手语与普通用户进行沟通时,会让不了解手语的普通用户难以正确理解其想要表达的意思,给双方用户均造成不便。
[0004]因此,如何能让聋哑用户与普通用户进行无障碍沟通,成为目前亟待解决的技术问题。

技术实现思路

[0005]本专利技术实施例提供了一种手势识别方法、装置和电子设备,通过提取视频帧并基于卷积神经网络

门控循环单元(Convolutional Neural Networks

Gate Recurrent Unit,CNN

GRN)网络模型,有效实现用户之间的无障碍沟通。
[0006]第一方面,本专利技术实施例提供一种手势识别方法,包括:
[0007]对接收到的手势视频数据进行采样,得到各视频帧;
[0008]从所述各视频帧中识别用户手势,获取用户手势信息;
[0009]从预设词库中确定与所述用户手势信息匹配的目标语言数据;
[0010]向用户提供所述目标语言数据。
[0011]其中一种可能的实现方式中,从所述各视频帧中识别用户手势,获得用户手势信息,包括:
[0012]将所述各视频帧输入卷积神经网络

门控循环单元CNN

GRU网络模型,通过所述CNN

GRN网络模型识别用户手势,并根据所述用户手势获取用户手势信息。
[0013]其中一种可能的实现方式中,所述CNN

GRU网络模型包括:CNN子网络、GRU子网络和输出网络;
[0014]所述CNN子网络用于提取所述各视频帧的空间特征图序列,并输出给所述GRU子网络;
[0015]所述GRU子网络用于基于所述各视频帧的空间特征图序列提取时间特征图序列,并输出给所述输出网络;
[0016]所述输出网络用于根据所述时间特征图序列识别用户手势特征,并对识别出的用户手势特征进行分类,并根据所述分类结果输出所述用户手势信息。
[0017]其中一种可能的实现方式中,所述CNN子网络结构包括:批量归一化BN层、CNN单元层、池化层;
[0018]所述BN层用于对所述各视频帧进行归一化;
[0019]所述CNN单元层用于对归一化的所述各视频帧进行特征提取,得到各视频帧的空间特征图序列;
[0020]所述池化层用于对所述各视频帧的空间特征图序列池化压缩后输出给所述GRU子网络。
[0021]其中一种可能的实现方式中,所述CNN单元层包括依次串联的多个CNN单元,每个所述CNN单元包括依次串联的第一卷积核、第一激活函数、第二卷积核和第二激活函数,其中,所述第一激活函数的输出除了传输到所述第二卷积核之外外,所述第一激活函数的输出还与所述第二卷积核的输出相加后输出给所述第二激活函数;
[0022]所述CNN单元层通过所述各个CNN单元对所述各视频帧进行特征提取以得到各视频帧的空间特征图序列。
[0023]其中一种可能的实现方式中,所述GRU子网络包括第一GRU单元层和第二GRU单元层,所述第一GRU单元层和所述第二GRU单元层均包含N个GRU单元,所述N的个数与视频帧的帧数相同;
[0024]所述GRU子网络用于基于所述各视频帧的空间特征图序列提取时间特征图序列,包括:
[0025]将各视频帧的空间特征图序列按照第一时间顺序输入第一GRU单元层,所述第一GRU单元层的每个所述GRU单元均输入一个视频帧的空间特征图序列,所述第一GRU单元层输出第一时间特征图序列;
[0026]将各视频帧的空间特征图序列按照与所述第一时间顺序相反的时间顺序输入第二GRU单元层,所述第二GRU单元层的每个所述GRU单元输入一个视频帧的空间特征图序列,所述第二GRU单元层输出第二时间特征图序列;
[0027]其中,所述第一时间特征图序列和所述第二时间特征图序列联接后输入所述输出网络。
[0028]其中一种可能的实现方式中,所述输出网络基于softmax函数对识别出的用户手势特征进行分类,并根据各分类的概率值输出所述用户手势信息。
[0029]其中一种可能的实现方式中,所述向用户提供所述目标语言数据,包括:
[0030]采用语音或者文字方式向用户提供所述目标语言数据。
[0031]第二方面,本专利技术实施例提供一种手势识别装置,包括:
[0032]采样模块,用于对接收到的手势视频数据进行采样,得到各视频帧;
[0033]识别模块,从所述各视频帧中识别用户手势,获取用户手势信息;
[0034]确定模块,用于从预设词库中确定与所述用户手势信息匹配的目标语言数据;
[0035]提供模块,用于向用户提供所述目标语言数据。
[0036]其中一种可能的实现方式中,所述识别模块,具体用于将所述各视频帧输入卷积神经网络

门控循环单元CNN

GRU网络模型,通过所述CNN

GRN网络模型识别用户手势,并根据所述用户手势获取用户手势信息。
[0037]其中一种可能的实现方式中,所述识别模块包括:CNN子网络模块、GRU子网络模块和输出网络模块;其中,所述CNN子网络模块用于提取所述各视频帧的空间特征图序列,并输出给所述GRU子网络;所述GRU子网络模块用于基于所述各视频帧的空间特征图序列提取
时间特征图序列,并输出给所述输出网络;所述输出网络模块用于根据所述时间特征图序列识别用户手势特征,并对识别出的用户手势特征进行分类,并根据所述分类结果输出所述用户手势信息。
[0038]其中一种可能的实现方式中,所述CNN子网络模块包括:批量归一化BN层、CNN单元层、池化层;所述BN层用于对所述各视频帧进行归一化;所述CNN单元层用于对归一化的所述各视频帧进行特征提取,得到各视频帧的空间特征图序列;所述池化层用于对所述各视频帧的空间特征图序列池化压缩后输出给所述GRU子网络。
[0039]其中一种可能的实现方式中,所述CRU子网络模块包括第一GRU单元层和第二GRU单元层,所述第一GRU单元层和所述第二GRU单元层均包含N个GRU单元,所述N的个数与视频帧的帧数相同,具体用于将各视频帧的空间特征图序列按照第一时间顺序输入第一GRU单元层,所述第一GRU单元层的每个所述GRU单元均输入一个视频帧的空间特征图序列,所述第一GRU单元层输出第一时间特征图序列;将各视频帧的空间特征图序列按照与所述第一时间顺序相反的时间顺序输入第二GRU单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种手势识别方法,其特征在于,包括:对接收到的手势视频数据进行采样,得到各视频帧;从所述各视频帧中识别用户手势,获取用户手势信息;从预设词库中确定与所述用户手势信息匹配的目标语言数据;向用户提供所述目标语言数据。2.根据权利要求1所述的方法,其特征在于,从所述各视频帧中识别用户手势,获得用户手势信息,包括:将所述各视频帧输入卷积神经网络

门控循环单元CNN

GRU网络模型,通过所述CNN

GRN网络模型识别用户手势,并根据所述用户手势获取用户手势信息。3.根据权利要求2所述的方法,其特征在于,所述CNN

GRU网络模型包括:CNN子网络、GRU子网络和输出网络;所述CNN子网络用于提取所述各视频帧的空间特征图序列,并输出给所述GRU子网络;所述GRU子网络用于基于所述各视频帧的空间特征图序列提取时间特征图序列,并输出给所述输出网络;所述输出网络用于根据所述时间特征图序列识别用户手势特征,并对识别出的用户手势特征进行分类,并根据所述分类结果输出所述用户手势信息。4.根据权利要求3所述方法,其特征在于,所述CNN子网络结构包括:批量归一化BN层、CNN单元层、池化层;所述BN层用于对所述各视频帧进行归一化;所述CNN单元层用于对归一化的所述各视频帧进行特征提取,得到各视频帧的空间特征图序列;所述池化层用于对所述各视频帧的空间特征图序列池化压缩后输出给所述GRU子网络。5.根据权利要求4所述的方法,其特征在于,所述CNN单元层包括依次串联的多个CNN单元,每个所述CNN单元包括依次串联的第一卷积核、第一激活函数、第二卷积核和第二激活函数,其中,所述第一激活函数的输出除了传输到所述第二卷积核之外外,所述第一激活函...

【专利技术属性】
技术研发人员:郭子奇
申请(专利权)人:展讯通信天津有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1