一种手语识别方法及系统技术方案

技术编号：24686051 阅读：56 留言：0更新日期：2020-06-27 08:41

本发明专利技术实施例提供了一种手语识别方法及系统，其中一种手语识别方法，包括：采集目标区域内的手语视频；利用预设分层长短期记忆网络提取所述手语视频的特征表示，采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系，获得文本语义特征；将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接，拟合出最优路径，实现所述手语视频的特征表示和所述文本语义特征的对齐。有效地提高了手语识别在实际应用中的鲁棒性，降低了翻译句子的歧义，使识别后的结果更加符合真实语言的习惯，支持任意长度手语视频的识别。

A sign language recognition method and system

全部详细技术资料下载

【技术实现步骤摘要】
一种手语识别方法及系统
本专利技术涉及数据处理
，特别是涉及一种手语识别方法和一种手语识别系统。
技术介绍
手语是聋哑人士交流的主要工具，对于大多数没有系统学习这门视觉语言的人来说，掌握这门语言并用于交流是十分困难的。为了促进聋哑人士与社会及他人交流，专利技术基于视频的手语识别技术是必要的也是刻不容缓的。根据识别的难度及视频的长度，可以将手语识别分为单词级别的识别和句子级别的识别。对于单词级别的手语识别，是将手语视频转化为一个单词类别，所以这个任务又可以看作是分类任务。不同于单词级的手语识别，句子级的手语识别是将一个视频翻译为一句话，这是连续的两个序列映射的过程，在识别上过程较为复杂，难度较大。目前，已经有很多工作者致力于研究句子级手语识别，并出现了很多成熟的方法。按照两个序列的对齐方式划分，可以将连续手语识别分为两个：基于软对齐的手语识别方法和基于硬对齐的手语识别方法。软对齐方式是在潜在空间隐式地实现两个序列的对齐，大多数软对齐方式采用编码-解码(encoder-decoder)的模型来把视频特征编码为高维向量然后再解码为视频对应的句子。但是这样的对齐方式针对较长手语视频识别效果有所下降，且在实际使用中对于复杂的背景不具有鲁棒性。硬对齐方式是对两个序列进行显式地对齐的过程，最早的硬对齐方式是基于隐马尔科夫和隐条件随机场来对帧级标注的序列进行对齐，这种方式需要耗费大量的人力，属于强监督学习。为了节省标注的时间和人力，随后出现了基于联结时间分类(CTC)的序列对齐方式。通过最大化所有可能路径的过程，来实现...

【技术保护点】
1.一种手语识别方法，其特征在于，包括：/n采集目标区域内的手语视频；/n利用预设分层长短期记忆网络提取所述手语视频的特征表示，采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系，获得文本语义特征；/n将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接，拟合出最优路径，实现所述手语视频的特征表示和所述文本语义特征的对齐。/n

【技术特征摘要】
1.一种手语识别方法，其特征在于，包括：
采集目标区域内的手语视频；
利用预设分层长短期记忆网络提取所述手语视频的特征表示，采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系，获得文本语义特征；
将所述手语视频的特征表示和所述文本语义特征在预设循环神经网络转化器中连接，拟合出最优路径，实现所述手语视频的特征表示和所述文本语义特征的对齐。

2.根据权利要求1所述的方法，其特征在于，所述利用预设分层长短期记忆网络提取所述手语视频的特征表示，采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系，获得文本语义特征的步骤之前，包括：
将所述手语视频转化成图像帧；
将所述图像帧中的静止帧去除，并按预设裁切规则处理，得到特征帧。

3.根据权利要求2所述的方法，其特征在于，所述利用预设分层长短期记忆网络提取所述手语视频的特征表示，采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系，获得文本语义特征的步骤，包括：
采用残差网络提取所述特征帧中的图像特征；
采用分层长短期记忆网络逐层提取所述图像特征中的关键帧。

4.根据权利要求2所述的方法，其特征在于，所述利用预设分层长短期记忆网络提取所述手语视频的特征表示，采用预设长短时记忆神经网络来建模所述手语视频中单词之间的上下文关系，获得文本语义特征的步骤，还包括：
采用预设单向长短时记忆网络对所述手语视频对应的句子进行单词建模，得到单词之间的依赖关系和上下文语义关系。

5.一种手语识别系统，其特征在于，包括：
...

【专利技术属性】
技术研发人员：冯伟，高丽清，刘国重，廖启波，
申请(专利权)人：深圳市康鸿泰科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人