一种基于深度图像动态手语语义识别系统及方法技术方案

技术编号：21572413 阅读：55 留言：0更新日期：2019-07-10 15:38

本发明专利技术提出一种基于深度图像动态手语语义识别系统及方法，所述系统及方法通过获取操作者的深度图像视频信息，并对所述视频信息进行处理，获取手关节信息，通过关节信息分析出手语单词，将各所述单词输入到语义分析模型中，判断语义表达是否完整，在所述意图表达完整时，将各所述完整语义直接输出或转化控制命令传给其他控制单元，实现了将手语动作翻译为文字，控制机械或操作系统，有助于听障人士更好的融入社会生活。

A Dynamic Sign Language Semantic Recognition System and Method Based on Depth Image

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度图像动态手语语义识别系统及方法
本专利技术属于语义识别
，特别是涉及一种基于深度图像动态手语语义识别系统及方法。
技术介绍
手语识别控制从原理上可分为基于双目相机和基于深度图像三维回归，在手势分析上只支持简单手势识别、简单手语单词。其中，基于双目相机采用的是通过双目相机同时拍摄物体来计算出物体特征点的深度信息的方式来进行图像识别，从而分析出手势信息。基于深度图像三维回归方案主要依赖于深度摄像机对手势进行拍摄得到的图像及拍摄场景内各点与深度摄像机之间的距离信息建立该手势的三维模型。以三维模型为依据进行手势判断，在手势分析上，具体采用标准手势数据库,与手势动作进行匹配，选出与模型最为相近的手势。现有技术中对语音识别以及语音控制做了很多的研究，也给可以使用语音控制的人创造了许多的便利，但对于聋哑人士却无法享受到这样的便利。而通过简单比划的方式(例如绘画、文字书写、动作比划)进行一些基础的沟通，并不能完全的表达使用者的意图，并且伴有一定的学习成本。所以，为了提高听障人士对控制设备的便利性，同时也为了便于聋哑残障人士与无手语基础的人进行无障碍沟通，急需一种能够理解手语语义的方法及系统。
技术实现思路
本专利技术目的是为了解决现有的技术问题，提出了一种基于深度图像动态手语语义识别系统及方法。本专利技术是通过以下技术方案实现的，本专利技术提出一种基于深度图像动态手语语义识别系统，包括：图像捕获模块，用于捕获操作者的深度图像视频数据并将每一帧深度图像传输给图像分析模块；图像分析模块，用于处理深度图像视频数据，得到手部关节3d坐标并输出给手语分析模块；手语分析...

【技术保护点】
1.一种基于深度图像动态手语语义识别系统，其特征在于，包括：图像捕获模块，用于捕获操作者的深度图像视频数据并将每一帧深度图像传输给图像分析模块；图像分析模块，用于处理深度图像视频数据，得到手部关节3d坐标并输出给手语分析模块；手语分析模块，用于获取足够长度的手部关节3d坐标队列，并提取子队列进行分析，获得子队列可能表示的单词，并将所述单词传递给语义分析模块；语义分析模块，用于获得足够表明一组完整的单词，并通过语义语境分析，对获取的单词矫正，并组合成完整正确语义的语句或者命令，并通过输出的语句或者命令进行控制操作。

【技术特征摘要】
1.一种基于深度图像动态手语语义识别系统，其特征在于，包括：图像捕获模块，用于捕获操作者的深度图像视频数据并将每一帧深度图像传输给图像分析模块；图像分析模块，用于处理深度图像视频数据，得到手部关节3d坐标并输出给手语分析模块；手语分析模块，用于获取足够长度的手部关节3d坐标队列，并提取子队列进行分析，获得子队列可能表示的单词，并将所述单词传递给语义分析模块；语义分析模块，用于获得足够表明一组完整的单词，并通过语义语境分析，对获取的单词矫正，并组合成完整正确语义的语句或者命令，并通过输出的语句或者命令进行控制操作。2.根据权利要求1所述的系统，其特征在于，所述图像分析模块具体工作流程如下：步骤21：接收图像捕获模块传输过来的深度图像视频数据；步骤22：进行人手部矩形框选坐标的识别；步骤23：通过循环神经网络进行基于时序信息的跟踪；步骤24：通过提取深度图像框选区域为感兴趣区域，并对框选区域深度图像进行手部关节3d坐标提取；步骤25：将提取的手部关节3d坐标输入到手语分析模块。3.根据权利要求2所述的系统，其特征在于，所述步骤22具体为：步骤221：通过图像发现并提取手部信息；步骤222：对视频前后帧图像时序信息进行手部跟踪，根据检测结果确定目标矩形框选区域；步骤223：持续跟踪手部，直到跟踪的手部信息消失，并返回步骤221。4.根据权利要求2所述的系统，其特征在于，所述对框选区域深度图像进行手部关节3d坐标提取，具体为：步骤241：接收框选后截取的深度图像；步骤242：将深度图像以图像像素值最高点为基准截取到阈值的所有像素；步骤243：将深度图像归一化到相同尺寸；步骤244：以像素最低点的像素值为0，像素最高点的像素值为1，将图像进行归一化操作；步骤245：将归一化后图像输入基于深度参差网络模型输出手部关节三维坐标；步骤246：将手部关节三维坐标输出到手语分析模块中。5.根据权利要求2、3或4所述的系统，其特征在于，所述手语分析模块具体用于将手部的...

【专利技术属性】
技术研发人员：刘禹欣，李文越，杜国铭，赵雪洁，宁可，
申请(专利权)人：哈尔滨拓博科技有限公司，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人