一种手语识别方法及系统技术方案

技术编号:24686051 阅读:56 留言:0更新日期:2020-06-27 08:41
本发明专利技术实施例提供了一种手语识别方法及系统,其中一种手语识别方法,包括:采集目标区域内的手语视频;利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。有效地提高了手语识别在实际应用中的鲁棒性,降低了翻译句子的歧义,使识别后的结果更加符合真实语言的习惯,支持任意长度手语视频的识别。

A sign language recognition method and system

【技术实现步骤摘要】
一种手语识别方法及系统
本专利技术涉及数据处理
,特别是涉及一种手语识别方法和一种手语识别系统。
技术介绍
手语是聋哑人士交流的主要工具,对于大多数没有系统学习这门视觉语言的人来说,掌握这门语言并用于交流是十分困难的。为了促进聋哑人士与社会及他人交流,专利技术基于视频的手语识别技术是必要的也是刻不容缓的。根据识别的难度及视频的长度,可以将手语识别分为单词级别的识别和句子级别的识别。对于单词级别的手语识别,是将手语视频转化为一个单词类别,所以这个任务又可以看作是分类任务。不同于单词级的手语识别,句子级的手语识别是将一个视频翻译为一句话,这是连续的两个序列映射的过程,在识别上过程较为复杂,难度较大。目前,已经有很多工作者致力于研究句子级手语识别,并出现了很多成熟的方法。按照两个序列的对齐方式划分,可以将连续手语识别分为两个:基于软对齐的手语识别方法和基于硬对齐的手语识别方法。软对齐方式是在潜在空间隐式地实现两个序列的对齐,大多数软对齐方式采用编码-解码(encoder-decoder)的模型来把视频特征编码为高维向量然后再解码为视频对应的句子。但是这样的对齐方式针对较长手语视频识别效果有所下降,且在实际使用中对于复杂的背景不具有鲁棒性。硬对齐方式是对两个序列进行显式地对齐的过程,最早的硬对齐方式是基于隐马尔科夫和隐条件随机场来对帧级标注的序列进行对齐,这种方式需要耗费大量的人力,属于强监督学习。为了节省标注的时间和人力,随后出现了基于联结时间分类(CTC)的序列对齐方式。通过最大化所有可能路径的过程,来实现两个序列的拟合。由于CTC只能在每个位置预测一个标签,且预测输出之间独立的特性,无法处理任意长度的序列的对齐问题,也无法建模输出之间的依赖关系。然而,在实际使用中,手语视频的长度不固定,对应句子的复杂性也不确定。如果只能建模固定长度序列的映射关系,则无法满足实际使用需求。基于以上原因,本文提出基于分层的视觉特征与单词序列建模的手语识别方法,该方法引入循环神经网络转换器,可以实现任意长度输入、输出序列之间的对齐,同时可以提取输出单词之间的上下文关系,使每个输出具有依赖性。手语是聋哑人士之间交流的主要工具,手语识别具有复杂性和多变性的特点,因此对于没有系统学习过手语的人群,学习手语具有一定难度。为了促进聋哑人士与社会的有效交流,基于视觉的手语技术专利技术是至关重要的。根据手语视频识别的特性,将手语识别分为两种:孤立手语识别技术和连续手语识别技术。对于孤立手语识别,该视频仅包含一个手语词,因此这类问题可以看做分类问题。在连续手语识别中,一个视频是对应一句话的,因此不能把它简单地看成识别问题,这是连续的两个序列之间的映射的过程,在识别任务上过程较为复杂。在评价指标上,也不能按照孤立手语识别中准确率来进行评价。目前,已经有很多学者致力于连续手语识别的研究中,并且形成了很多成熟的方法。这些方法整分为两大部分:基于软对齐的手语识别方法和基于硬对齐的手语识别方法。早期的基于硬对齐的手语识别方法主要使用隐马尔可夫模型或者条件随机场。这种需要人为事先对视频的所有帧进行标注,该方法工作量特别繁重。为了节省标注的人力、物力和财力,随后出现了基于链接时间分类(CTC,ConnectionistTemporalClassification)的硬对齐方式,这种方式不需要事先对视频的每一帧进行标注,只需要标注当前视频对应的文本。CTC算法会最大化所有可能的路径,来实现两个序列之间的对齐拟合。但是CTC算法会有两个缺点,这两点在手语识别中是不能被忽视的。第一,CTC算法假设输出与输出之间是相互独立的,即“我的爸爸是老师”中,“我的”和“爸爸”之间是相互独立的。但是这个在实际情况中是不成立的。第二,CTC算法不能解决输入长度比输出长度短的情况,因为CTC算法在每一个时刻只能预测一个单词,但是在实际使用中,手语视频的长度是不固定的,有可能存在手语视频帧比对应文本词数多的情况,但是这种红情况下CTC算法是不能解决的。基于软对齐的手语识别方法,是在一个潜空间中来建模两序列之间的对齐关系。软对齐方式主要使用了编码器-解码器(encoder-decoder)结构把视频编码成为高维的特征表示,然后将高维特征作为解码器的输入,进行解码得到对应文本。避免了CTC算法中输出与输出之间相互独立和源序列长度必须小于目标序列长度的不合理假设。该模型可以建模任意长度的输入序列与输出序列之间的对应关系。但是,编码器-解码器结构对于较长的手语视频识别来讲,精度会有所下降。经过分析可得,将较长的视频编码成为一个固定长度的特征向量并进行依次解码,该特征向量不能很好地表示视频的信息。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种手语识别方法和相应的一种手语识别系统。为了解决上述问题,本专利技术实施例公开了一种手语识别方法,包括:采集目标区域内的手语视频;利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。进一步地,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤之前,包括:将所述手语视频转化成图像帧;将所述图像帧中的静止帧去除,并按预设裁切规则处理,得到特征帧。进一步地,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤,包括:采用残差网络提取所述特征帧中的图像特征;采用分层长短期记忆网络逐层提取所述图像特征中的关键帧。进一步地,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤,还包括:采用预设单向长短时记忆网络对所述手语视频对应的句子进行单词建模,得到单词之间的依赖关系和上下文语义关系。本专利技术实施例公开了一种手语识别系统,包括:视频采集模块,用于采集目标区域内的手语视频;特征提取模块,用于利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;序列对其模块,用于将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。进一步地,还包括:转化模块,用于将所述手语视频转化成图像帧;图像处理模块,用于将所述图像帧中的静止帧去除,并按预设裁切规则处理,得到特征帧。进一步地,所述特征提取模块包括:<本文档来自技高网
...

【技术保护点】
1.一种手语识别方法,其特征在于,包括:/n采集目标区域内的手语视频;/n利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;/n将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。/n

【技术特征摘要】
1.一种手语识别方法,其特征在于,包括:
采集目标区域内的手语视频;
利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征;
将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接,拟合出最优路径,实现所述手语视频的特征表示和所述文本语义特征的对齐。


2.根据权利要求1所述的方法,其特征在于,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤之前,包括:
将所述手语视频转化成图像帧;
将所述图像帧中的静止帧去除,并按预设裁切规则处理,得到特征帧。


3.根据权利要求2所述的方法,其特征在于,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤,包括:
采用残差网络提取所述特征帧中的图像特征;
采用分层长短期记忆网络逐层提取所述图像特征中的关键帧。


4.根据权利要求2所述的方法,其特征在于,所述利用预设分层长短期记忆网络提取所述手语视频的特征表示,采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系,获得文本语义特征的步骤,还包括:
采用预设单向长短时记忆网络对所述手语视频对应的句子进行单词建模,得到单词之间的依赖关系和上下文语义关系。


5.一种手语识别系统,其特征在于,包括:
...

【专利技术属性】
技术研发人员:冯伟高丽清刘国重廖启波
申请(专利权)人:深圳市康鸿泰科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1