手语识别方法、装置、计算机可读存储介质和计算机设备制造方法及图纸

技术编号:22330713 阅读:29 留言:0更新日期:2019-10-19 12:23
本申请涉及一种手语识别方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取待识别的手语视频;从所述手语视频中的各帧图像中提取手势特征;提取所述手语视频中各帧图像的手势变化特征;从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息;按照所述手语词信息对应的语境信息,将所述手语词信息组合成手语语句。本申请提供的方案可以有效地提高手语识别的准确性。

【技术实现步骤摘要】
手语识别方法、装置、计算机可读存储介质和计算机设备
本申请涉及计算机
,特别是涉及一种手语识别方法、装置、计算机可读存储介质和计算机设备。
技术介绍
对于听力障碍的人群,手语是一种常用的自然语言,通过手语的沟通方式可以向他人表述自己的想法。然而,对于普通人群而言,对手语的了解甚少,导致与听力障碍的人群之间的交流存在很大的困难。因此,手语识别技术的出现具有重要意义,可以很好的促进普通人群与听力障碍的人群之间的交流。将一系列不做停顿的手语表达直接识别成文字,是一个具有挑战性的问题,传统的手语识别方案中,通过带有传感器的手环或手套来获取距离和肌肉活动等信息,通过这些信息来进行手语的识别。然而,采用上述的手语识别方案,手语识别的准确性较低。
技术实现思路
基于此,有必要针对手语识别的准确性较低的技术问题,提供一种手语识别方法、装置、计算机可读存储介质和计算机设备。一种手语识别方法,包括:获取待识别的手语视频;从所述手语视频中的各帧图像中提取手势特征;提取所述手语视频中各帧图像的手势变化特征;从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息;按照所述手语词信息对应的语境信息,将所述手语词信息组合成手语语句。一种手语识别装置,所述装置包括:视频获取模块,用于获取待识别的手语视频;第一特征提取模块,用于从所述手语视频中的各帧图像中提取手势特征;第二特征提取模块,用于提取所述手语视频中各帧图像的手势变化特征;信息提取模块,用于从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息;手语识别模块,用于按照所述手语词信息对应的语境信息,将所述手语词信息组合成手语语句。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述手语识别方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述手语识别方法的步骤。上述手语识别方法、装置、计算机可读存储介质和计算机设备,在获取到手语视频时,提取手语视频各帧图像中的手势特征,而且提取手语视频中各帧图像的手势变化特征,从而可以得到手势信息和手势的细微变化信息,当利用手势特征和手势变化特征进行手语识别时,可以有效地提升手语识别的准确率。从手势特征与手势变化特征之间的融合特征中提取手语词信息,在确定所提取手语词信息的语境信息时,根据语境信息将所提取的手语词信息组合成手语语句,从而将词与词之间进行准确有效地组合,有利于提高手语识别的准确率。附图说明图1为一个实施例中手语识别方法的应用环境图;图2为一个实施例中手语识别方法的流程示意图;图3为一个实施例中手语识别页面的示意图;图4为一个实施例中人脸特征点的示意图;图5为一个实施例中二维卷积和三维卷积的示意图;图6为一个实施例中特征提取单元的结构示意图;图7为一个实施例中提取手语词信息步骤的流程示意图;图8为一个实施例中将合成新手语语句时发出提示信息,并按照设定呈现方式对新手语语句进行显示步骤的流程示意图;图9为一个实施例中机器学习模型的结构框图;图10为另一个实施例中手语识别方法的流程示意图;图11为一个实施例中手语识别装置的结构框图;图12为另一个实施例中手语识别装置的结构框图;图13为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中手语识别方法的应用环境图。参照图1,该手语识别方法应用于手语识别系统。该手语识别系统包括终端110和服务器120。终端110和服务器120通过网络连接。该手语识别方法可以由终端110执行,也可以由终端110与服务器120协同执行。当由终端110执行时,终端110获取待识别的手语视频;从手语视频中的各帧图像中提取手势特征;提取手语视频中各帧图像的手势变化特征;从手势特征与手势变化特征之间的融合特征中提取手语词信息;按照手语词信息对应的语境信息,将手语词信息组合成手语语句。当由终端110和服务器120协同执行时,终端110通过内置的摄像头拍摄图像,进而得到待识别的手语视频,然后将手语视频发送给服务器120;服务器120从手语视频中的各帧图像中提取手势特征;提取手语视频中各帧图像的手势变化特征;从手势特征与手势变化特征之间的融合特征中提取手语词信息;按照手语词信息对应的语境信息,将手语词信息组合成手语语句。其中,终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种;又或者是专用的手语翻译机,该手语翻译机安装有摄像头,用于记录手语动作。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。如图2所示,在一个实施例中,提供了一种手语识别方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2,该手语识别方法具体包括如下步骤:S202,获取待识别的手语视频。其中,手语可以指以手部动作和面部表情来表达思想,从而实现沟通的目的,它是听力障碍和无法言语之人(即聋哑人)互相交际和交流思想的一种手段。手语视频可以是目标对象(包括听力障碍、聋哑人和正常人)在使用手语与他人或机器进行交流,或是用户向他人传递信息(如新闻工作者以手语播报新闻)时所拍摄的视频。手语视频由多个关于手语的帧图像所组成。在一个实施例中,当进行手语识别时,终端启动手语识别客户端;在启动手语客户端后,展示手语识别页面,以便根据该手语识别页面进行相应的操作和/或提示。在一个实施例中,终端检测在手语识别页面触发的开始操作;响应于该开始操作,启动内置摄像头进行帧图像的拍摄。具体地,终端通过内置摄像头拍摄目标对象在使用手语时的帧图像,将拍摄的帧图像组合成手语视频。当检测在手语识别页面触发的停止操作;响应于该停止操作,关闭内置摄像头,以停止进行帧图像的拍摄。例如,如图3(a)所示,当用户点击开始按钮⑤时,则开始进行手语识别的过程,即先通过终端内置的摄像头拍摄关于手语的帧图像。当再次点击按钮⑤时,则停止进行手语识别的过程,即先停止拍摄帧图像。对于S202,可以分为以下两个场景进行阐述:场景1,通过检测等待时长来确定手语是否进行停顿,当停顿时,获取手语视频。在一个实施例中,S202具体可以包括:当检测到开始操作时,终端拍摄环境中的目标对象;当拍摄目标对象所得的视频中包含有人脸特征和手势特征时,则在拍摄过程中实时检测目标对象在切换手势时的等待时长;当等待时长符合预设条件时,将所获得的视频作为待识别的手语视频。在一个实施例中,当等待时长不符合预设条件时,将拍摄目标对象所得的视频进行保存,并返回执行在拍摄过程中实时检测目标对象在切换手势时的等待时长的步骤,直至等待时长符合预设条件时,则将当前拍摄目标对象所得的视频和保存的视频作为待识别的手语视频。其中,预设条件可以是某个时长阈值,当等待时长大于或等于时长阈值时,表示等待时长符合预设条件。例如,若检测到手势特征时,则进行端点检测,即通过等待时间是否符合预设条件来确定某一句手语是否已经表达完,若否,那么则把这个帧图像储存起来;若是,则将本文档来自技高网...

【技术保护点】
1.一种手语识别方法,包括:获取待识别的手语视频;从所述手语视频中的各帧图像中提取手势特征;提取所述手语视频中各帧图像的手势变化特征;从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息;按照所述手语词信息对应的语境信息,将所述手语词信息组合成手语语句。

【技术特征摘要】
1.一种手语识别方法,包括:获取待识别的手语视频;从所述手语视频中的各帧图像中提取手势特征;提取所述手语视频中各帧图像的手势变化特征;从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息;按照所述手语词信息对应的语境信息,将所述手语词信息组合成手语语句。2.根据权利要求1所述的方法,其特征在于,所述获取待识别的手语视频包括:拍摄环境中的目标对象;当拍摄所述目标对象所得的视频中包含有人脸特征和手势特征时,则在拍摄过程中实时检测所述目标对象在切换手势时的等待时长;当所述等待时长符合预设条件时,将所获得的视频作为待识别的手语视频。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:当等待时长不符合预设条件时,则将拍摄所述目标对象所得的视频进行保存,并返回执行所述在拍摄过程中实时检测所述目标对象在切换手势时的等待时长的步骤,直至所述等待时长符合预设条件时,则将当前拍摄所述目标对象所得的视频和保存的视频作为待识别的手语视频。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:当拍摄目标对象所得的视频中包含有人脸特征和手势特征时,则在拍摄过程中实时检测所述目标对象的手势特征;当检测所得的手势特征符合手势结束端点条件时,将所获得的视频作为待识别的手语视频;当检测所得的手势特征不符合手势结束端点条件时,保存所拍摄的视频,执行所述在拍摄过程中实时检测所述目标对象的手势特征的步骤,直至所述手势特征符合手势结束端点条件时,则将当前拍摄所述目标对象所得的视频和保存的视频作为待识别的手语视频。5.根据权利要求1所述的方法,其特征在于,所述手势特征通过二维网络模型提取;所述手势变化特征通过三维网络模型提取;所述从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息之前,所述方法还包括:对所述手势特征与所述手势变化特征之间的融合特征进行卷积和池化处理;通过所述二维网络模型,从池化处理后所得的融合特征中提取手势特征;通过所述三维网络模型提取池化处理后所得的融合特征中的手势变化特征;将所提取的手势特征和手势变化特征进行融合,迭代执行预设次数所述对所述手势特征与所述手势变化特征之间的融合特征进行卷积和池化处理的步骤,获得经过迭代预设次数后所得的融合特征。6.根据权利要求1或5所述的方法,其特征在于,所述从所述手势特征与所述手势变化特征之间的融合特征中提取手语词信息包括:将所述手势特征与所述手势变化特征之间的融合特征转换成特征向量;在转换所得的特征向量中,分别对连续多帧图像对应的特征向量进行组合得到特征向量分组;分别从各所述特征向量分组中提取手语词信息。7.根据权利要求6所述的方法,其特征在于,所述将所述手势特征与所述手势变化特征之间的融合特征转换成特征向量包...

【专利技术属性】
技术研发人员:阳赵阳沈小勇戴宇荣贾佳亚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1