一种手语识别方法和系统技术方案

技术编号：24686048 阅读：48 留言：0更新日期：2020-06-27 08:41

本发明专利技术实施例提供了一种手语识别方法和系统，通过分层长短期记忆网络后，进行最大池化操作，获得当前窗口的关键信息，网络的长度从长到短进行逐步变化，有效地获得手语视频的时空特征，并从不同级别提取视频的内在联系，可以自动提取当前视频中的关键手势信息，在保证不降低网络精度的前提下，压缩网络，提高计算速度，基于编码器‑解码器结构和基于CTC损失函数的循环神经网络联合训练的手语识别模型，联合优化，训练网络，避免了输出词与输出词之间的独立关系，更符合手语识别的应用场景。

A sign language recognition method and system

全部详细技术资料下载

【技术实现步骤摘要】
一种手语识别方法和系统
本专利技术涉及数据处理
，特别是涉及一种手语识别方法和一种手语识别系统。
技术介绍
手语是聋哑人士之间交流的主要工具，手语识别具有复杂性和多变性的特点，因此对于没有系统学习过手语的人群，学习手语具有一定难度。为了促进聋哑人士与社会的有效交流，基于视觉的手语技术专利技术是至关重要的。根据手语视频识别的特性，将手语识别分为两种：孤立手语识别技术和连续手语识别技术。对于孤立手语识别，该视频仅包含一个手语词，因此这类问题可以看做分类问题。在连续手语识别中，一个视频是对应一句话的，因此不能把它简单地看成识别问题，这是连续的两个序列之间的映射的过程，在识别任务上过程较为复杂。在评价指标上，也不能按照孤立手语识别中准确率来进行评价。目前，已经有很多学者致力于连续手语识别的研究中，并且形成了很多成熟的方法。这些方法整分为两大部分：基于软对齐的手语识别方法和基于硬对齐的手语识别方法。早期的基于硬对齐的手语识别方法主要使用隐马尔可夫模型或者条件随机场。这种需要人为事先对视频的所有帧进行标注，该方法工作量特别...

【技术保护点】
1.一种手语识别方法，其特征在于，包括：/n采集目标区域内的手语视频，将所述手语视频转化成第一视频帧；/n通过预设卷积神经网络提取所述第一视频帧中的特征帧；/n将所述特征帧输入到预设分层长短期记忆网络，提取出有效帧；/n将所述有效帧输入到预设手语识别模型，输出与所述手语视频对齐的目标语句文本。/n

【技术特征摘要】
1.一种手语识别方法，其特征在于，包括：
采集目标区域内的手语视频，将所述手语视频转化成第一视频帧；
通过预设卷积神经网络提取所述第一视频帧中的特征帧；
将所述特征帧输入到预设分层长短期记忆网络，提取出有效帧；
将所述有效帧输入到预设手语识别模型，输出与所述手语视频对齐的目标语句文本。

2.根据权利要求1所述的方法，其特征在于，所述采集目标区域内的手语视频，将所述手语视频转化成第一视频帧之后，包括：
按照预设目标对象裁切规则将所述第一视频帧裁切为第二视频帧。

3.根据权利要求2所述的方法，其特征在于，所述通过预设卷积神经网络提取所述第一视频帧中的特征帧包括：
采用预设残差网络对所述第二视频帧逐帧提取，得到所述特征帧。

4.根据权利要求1所述的方法，其特征在于，所述预设分层长短期记忆网络设置为三层长短期记忆网络，所述将所述特征帧输入到预设分层长短期记忆网络，提取出有效帧包括：
将所述特征帧输入到第一层长短期记忆网络，建立所述特征帧的时序关系，得到第一时序帧；
将所述第一时序帧输入到第二层长短期记忆网络，提取出第一预设滑动窗口中的关键帧；
将所述关键帧输入到第三层长短期记忆网络，提取出第二预设滑动窗口中的所述有效帧。

5.根据权利要求1所述的方法，其特征在于，所述将所述有效帧输入到预设手语识别模型，输出与所述手语视频对齐的目标语句文本包括：
将所述有效帧输入到基于编码器-解码器结构和基于CTC损失函数的循环神经网络联合训练的模型，输出与所述手语视频对齐的目标语句文本。<...

【专利技术属性】
技术研发人员：冯伟，高丽清，刘国重，廖启波，
申请(专利权)人：深圳市康鸿泰科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人