一种手语识别方法和系统技术方案

技术编号:24686048 阅读:43 留言:0更新日期:2020-06-27 08:41
本发明专利技术实施例提供了一种手语识别方法和系统,通过分层长短期记忆网络后,进行最大池化操作,获得当前窗口的关键信息,网络的长度从长到短进行逐步变化,有效地获得手语视频的时空特征,并从不同级别提取视频的内在联系,可以自动提取当前视频中的关键手势信息,在保证不降低网络精度的前提下,压缩网络,提高计算速度,基于编码器‑解码器结构和基于CTC损失函数的循环神经网络联合训练的手语识别模型,联合优化,训练网络,避免了输出词与输出词之间的独立关系,更符合手语识别的应用场景。

A sign language recognition method and system

【技术实现步骤摘要】
一种手语识别方法和系统
本专利技术涉及数据处理
,特别是涉及一种手语识别方法和一种手语识别系统。
技术介绍
手语是聋哑人士之间交流的主要工具,手语识别具有复杂性和多变性的特点,因此对于没有系统学习过手语的人群,学习手语具有一定难度。为了促进聋哑人士与社会的有效交流,基于视觉的手语技术专利技术是至关重要的。根据手语视频识别的特性,将手语识别分为两种:孤立手语识别技术和连续手语识别技术。对于孤立手语识别,该视频仅包含一个手语词,因此这类问题可以看做分类问题。在连续手语识别中,一个视频是对应一句话的,因此不能把它简单地看成识别问题,这是连续的两个序列之间的映射的过程,在识别任务上过程较为复杂。在评价指标上,也不能按照孤立手语识别中准确率来进行评价。目前,已经有很多学者致力于连续手语识别的研究中,并且形成了很多成熟的方法。这些方法整分为两大部分:基于软对齐的手语识别方法和基于硬对齐的手语识别方法。早期的基于硬对齐的手语识别方法主要使用隐马尔可夫模型或者条件随机场。这种需要人为事先对视频的所有帧进行标注,该方法工作量特别繁重。在实际使用中,手语视频的长度是不固定的,有可能存在手语视频帧比对应文本词数多的情况,将较长的视频编码成为一个固定长度的特征向量并进行依次解码,该特征向量不能很好地表示视频的信息。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种手语识别方法和相应的一种手语识别系统。为了解决上述问题,本专利技术实施例公开了一种手语识别方法,包括:采集目标区域内的手语视频,将所述手语视频转化成第一视频帧;通过预设卷积神经网络提取所述第一视频帧中的特征帧;将所述特征帧输入到预设分层长短期记忆网络,提取出有效帧;将所述有效帧输入到预设手语识别模型,输出与所述手语视频对齐的目标语句文本。进一步地,采集目标区域内的手语视频,将所述手语视频转化成第一视频帧之后,包括:按照预设目标对象裁切规则将所述第一视频帧裁切为第二视频帧。进一步地,所述通过预设卷积神经网络提取所述第一视频帧中的特征帧包括:采用预设残差网络对所述第二视频帧逐帧提取,得到所述特征帧。进一步地,所述预设分层长短期记忆网络设置为三层长短期记忆网络,所述将所述特征帧输入到预设分层长短期记忆网络,提取出有效帧包括:将所述特征帧输入到第一层长短期记忆网络,建立所述特征帧的时序关系,得到第一时序帧;将所述第一时序帧输入到第二层长短期记忆网络,提取出第一预设滑动窗口中的关键帧;将所述关键帧输入到第三层长短期记忆网络,提取出第二预设滑动窗口中的所述有效帧。进一步地,所述将所述有效帧输入到预设手语识别模型,输出与所述手语视频对齐的目标语句文本包括:将所述有效帧输入到基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的模型,输出与所述手语视频对齐的目标语句文本。进一步地,所述将所述有效帧输入到基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的手语识别模型,输出与所述手语视频对齐的目标语句文本之前,还包括:将所述有效帧分别输入到编码器-解码器结构和CTC损失函数中,得到对应的两个损失函数值,将所述两个对应的损失函数值通过线性加权,得到总损失函数值;利用所述总损失函数值训练所述手语识别模型。进一步地,所述利用所述总损失函数值训练所述手语识别模型包括:利用所述总损失函数值和梯度下降算法更新所述手语识别模型中的参数。本专利技术实施例公开了一种手语识别系统,包括:视频采集模块,用于采集目标区域内的手语视频;特征提取模块,用于通过预设卷积神经网络提取所述手语视频中的特征帧;特征筛选模块,用于将所述特征帧输入到预设分层长短期记忆网络,提取出有效帧;手语识别模块,用于将所述有效帧输入到预设手语识别模型,输出与所述手语视频对齐的目标语句文本。本专利技术实施例公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的手语识别方法的步骤。本专利技术实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的手语识别方法的步骤。本专利技术实施例包括以下优点:通过分层长短期记忆网络,多层网络之后进行最大池化操作,获得当前窗口的关键信息,网络的长度从长到短进行逐步变化,通过这个网络,有效地获得手语视频的时空特征,并从不同级别提取视频的内在联系,可以实现自动提取当前视频中的关键手势信息,在保证不降低网络精度的前提下,压缩网络,提高计算速度。利用基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的手语识别模型,联合优化,训练网络,避免了输出词与输出词之间的独立关系,更符合手语识别的应用场景。附图说明图1是本专利技术的一种手语识别方法一实施例的步骤流程图;图2是本专利技术的一种手语识别方法另一实施例的步骤流程图;图3是本专利技术的一种手语识别方法另一实施例的步骤流程图;图4是本专利技术的一种手语识别系统一实施例的结构框图;图5是本专利技术的一种手语识别系统另一实施例的结构框图;图6是本专利技术的一种手语识别系统另一实施例的结构框图;图7是本专利技术的一种手语识别系统另一实施例的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术实施例的核心构思之一在于,提供了一种手语识别方法和系统,其中一种手语识别方法,包括:采集目标区域内的手语视频;通过预设卷积神经网络提取手语视频中的特征帧;将特征帧输入到预设分层长短期记忆网络,提取出有效帧;将有效帧输入到预设手语识别模型,输出与手语视频对齐的目标语句文本。通过分层长短期记忆网络,多层网络之后进行最大池化操作,获得当前窗口的关键信息,网络的长度从长到短进行逐步变化,通过这个网络,有效地获得手语视频的时空特征,并从不同级别提取视频的内在联系,可以实现自动提取当前视频中的关键手势信息,在保证不降低网络精度的前提下,压缩网络,提高计算速度。利用基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的手语识别模型,联合优化,训练网络,避免了输出词与输出词之间的独立关系,更符合手语识别的应用场景。参照图1,示出了本专利技术的一种手语识别方法实施例的步骤流程图,具体可以包括如下步骤:S100,采集目标区域内的手语视频,采集目标区域内的手语视频,将所述手语视频转化成第一视频帧;S200,通过预设卷积神经网络提取所述第一视频帧中的特征帧;S300,将特征帧输入到预设分层长短期记忆网络,提取出有效帧;S400,将有效帧输入到预设手语识别模型,输出与手语视频对齐的目标语句文本文档来自技高网...

【技术保护点】
1.一种手语识别方法,其特征在于,包括:/n采集目标区域内的手语视频,将所述手语视频转化成第一视频帧;/n通过预设卷积神经网络提取所述第一视频帧中的特征帧;/n将所述特征帧输入到预设分层长短期记忆网络,提取出有效帧;/n将所述有效帧输入到预设手语识别模型,输出与所述手语视频对齐的目标语句文本。/n

【技术特征摘要】
1.一种手语识别方法,其特征在于,包括:
采集目标区域内的手语视频,将所述手语视频转化成第一视频帧;
通过预设卷积神经网络提取所述第一视频帧中的特征帧;
将所述特征帧输入到预设分层长短期记忆网络,提取出有效帧;
将所述有效帧输入到预设手语识别模型,输出与所述手语视频对齐的目标语句文本。


2.根据权利要求1所述的方法,其特征在于,所述采集目标区域内的手语视频,将所述手语视频转化成第一视频帧之后,包括:
按照预设目标对象裁切规则将所述第一视频帧裁切为第二视频帧。


3.根据权利要求2所述的方法,其特征在于,所述通过预设卷积神经网络提取所述第一视频帧中的特征帧包括:
采用预设残差网络对所述第二视频帧逐帧提取,得到所述特征帧。


4.根据权利要求1所述的方法,其特征在于,所述预设分层长短期记忆网络设置为三层长短期记忆网络,所述将所述特征帧输入到预设分层长短期记忆网络,提取出有效帧包括:
将所述特征帧输入到第一层长短期记忆网络,建立所述特征帧的时序关系,得到第一时序帧;
将所述第一时序帧输入到第二层长短期记忆网络,提取出第一预设滑动窗口中的关键帧;
将所述关键帧输入到第三层长短期记忆网络,提取出第二预设滑动窗口中的所述有效帧。


5.根据权利要求1所述的方法,其特征在于,所述将所述有效帧输入到预设手语识别模型,输出与所述手语视频对齐的目标语句文本包括:
将所述有效帧输入到基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的模型,输出与所述手语视频对齐的目标语句文本。<...

【专利技术属性】
技术研发人员:冯伟高丽清刘国重廖启波
申请(专利权)人:深圳市康鸿泰科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1