一种基于深度图像动态手语语义识别系统及方法技术方案

技术编号:21572413 阅读:55 留言:0更新日期:2019-07-10 15:38
本发明专利技术提出一种基于深度图像动态手语语义识别系统及方法,所述系统及方法通过获取操作者的深度图像视频信息,并对所述视频信息进行处理,获取手关节信息,通过关节信息分析出手语单词,将各所述单词输入到语义分析模型中,判断语义表达是否完整,在所述意图表达完整时,将各所述完整语义直接输出或转化控制命令传给其他控制单元,实现了将手语动作翻译为文字,控制机械或操作系统,有助于听障人士更好的融入社会生活。

A Dynamic Sign Language Semantic Recognition System and Method Based on Depth Image

【技术实现步骤摘要】
一种基于深度图像动态手语语义识别系统及方法
本专利技术属于语义识别
,特别是涉及一种基于深度图像动态手语语义识别系统及方法。
技术介绍
手语识别控制从原理上可分为基于双目相机和基于深度图像三维回归,在手势分析上只支持简单手势识别、简单手语单词。其中,基于双目相机采用的是通过双目相机同时拍摄物体来计算出物体特征点的深度信息的方式来进行图像识别,从而分析出手势信息。基于深度图像三维回归方案主要依赖于深度摄像机对手势进行拍摄得到的图像及拍摄场景内各点与深度摄像机之间的距离信息建立该手势的三维模型。以三维模型为依据进行手势判断,在手势分析上,具体采用标准手势数据库,与手势动作进行匹配,选出与模型最为相近的手势。现有技术中对语音识别以及语音控制做了很多的研究,也给可以使用语音控制的人创造了许多的便利,但对于聋哑人士却无法享受到这样的便利。而通过简单比划的方式(例如绘画、文字书写、动作比划)进行一些基础的沟通,并不能完全的表达使用者的意图,并且伴有一定的学习成本。所以,为了提高听障人士对控制设备的便利性,同时也为了便于聋哑残障人士与无手语基础的人进行无障碍沟通,急需一种能够理解手语语义的方法及系统。
技术实现思路
本专利技术目的是为了解决现有的技术问题,提出了一种基于深度图像动态手语语义识别系统及方法。本专利技术是通过以下技术方案实现的,本专利技术提出一种基于深度图像动态手语语义识别系统,包括:图像捕获模块,用于捕获操作者的深度图像视频数据并将每一帧深度图像传输给图像分析模块;图像分析模块,用于处理深度图像视频数据,得到手部关节3d坐标并输出给手语分析模块;手语分析模块,用于获取足够长度的手部关节3d坐标队列,并提取子队列进行分析,获得子队列可能表示的单词,并将所述单词传递给语义分析模块;语义分析模块,用于获得足够表明一组完整的单词,并通过语义语境分析,对获取的单词矫正,并组合成完整正确语义的语句或者命令,并通过输出的语句或者命令进行控制操作。进一步地,所述图像分析模块具体工作流程如下:步骤21:接收图像捕获模块传输过来的深度图像视频数据;步骤22:进行人手部矩形框选坐标的识别;步骤23:通过循环神经网络进行基于时序信息的跟踪;步骤24:通过提取深度图像框选区域为感兴趣区域,并对框选区域深度图像进行手部关节3d坐标提取;步骤25:将提取的手部关节3d坐标输入到手语分析模块。进一步地,所述步骤22具体为:步骤221:通过图像发现并提取手部信息;步骤222:对视频前后帧图像时序信息进行手部跟踪,根据检测结果确定目标矩形框选区域;步骤223:持续跟踪手部,直到跟踪的手部信息消失,并返回步骤221。进一步地,所述对框选区域深度图像进行手部关节3d坐标提取,具体为:步骤241:接收框选后截取的深度图像;步骤242:将深度图像以图像像素值最高点为基准截取到阈值的所有像素;步骤243:将深度图像归一化到相同尺寸;步骤244:以像素最低点的像素值为0,像素最高点的像素值为1,将图像进行归一化操作;步骤245:将归一化后图像输入基于深度参差网络模型输出手部关节三维坐标;步骤246:将手部关节三维坐标输出到手语分析模块中。进一步地,所述手语分析模块具体用于将手部的三维坐标进行序列化存储,并通过训练得到的长短期记忆网络模型进行将坐标时序信息转化为手语单词的操作;输入为坐标序列帧,并将可能输出的单词通过独热编码进行重新编码,输出为通过softmax得到的所有概率密度分布,取前五高概率的单词的独热编码及其概率,从而实现从动作上识别操作者可能表达的单词。进一步地,所述语义分析模块具体用于输入独热编码组和概率组序列,并通过训练得到的N-gram网络模型进行将单词组序列转化为具体语义的操作。本专利技术还提出一种基于深度图像动态手语语义识别方法,具体包括以下步骤:步骤1:调用图像捕获模块捕获操作者的深度图像视频数据将每一帧深度图像传输给图像分析模块;步骤2:调用图像分析模块处理深度图像视频数据,得到手部关节3d坐标并输出给手语分析模块;步骤3:重复步骤2,直到获取足够长度的手部关节3d坐标队列,并提取子队列进行分析,获得子队列可能表示的单词,并将所述单词传递给语义分析模块;步骤4:重复步骤3,直到获得足够表明一组完整的的单词,并通过语义语境分析,对获取的单词矫正,并组合成完整正确语义的语句或者命令,并通过输出的语句或者命令进行控制操作。进一步地,所述步骤3具体为:步骤31:将手部关节3d坐标队列输入到长短期记忆网络模型中;步骤32:通过所述长短期记忆网络模型得到前五高概率的单词独热编码及其概率;步骤33:将独热编码组和概率组输入到语义分析模块中。进一步地,所述步骤4具体为:步骤41:将独热编码组和概率组序列输入到N-gram网络模型中;步骤42:通过所述N-gram网络模型输出完整语义的句子;步骤43:将完整语义的句子直接输出或者转化为操作信号传递给受控设备进行控制操作。进一步地,所述图像捕获模块包括深度摄像机,所述深度摄像机的摄像头能够捕获视场范围内的深度信息,且视场范围可根据实际应用调节。本专利技术与现有技术相比,具有如下优点:1.为获取指定结果的输出,不必采用固定手势输入,只要手语语义相同。2.采用深度相机采集数据,没有灯光、颜色等其他干扰。3.系统耦合性低,可截取其中几个模块完成其他操作(例如可单独提取食指关节坐标,进行物体运动控制操作)4.最终输出控制命令,可进行多项下属单元的控制。附图说明图1为本专利技术所述基于深度图像动态手语语义识别方法流程图。具体实施方式下面将结合本专利技术实施例中的附图对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。结合图1,本专利技术提出一种基于深度图像动态手语语义识别系统,包括:图像捕获模块,用于捕获操作者的深度图像视频数据并将每一帧深度图像传输给图像分析模块;图像分析模块,用于处理深度图像视频数据,得到手部关节3d坐标并输出给手语分析模块;手语分析模块,用于获取足够长度的手部关节3d坐标队列,并提取子队列进行分析,获得子队列可能表示的单词,并将所述单词传递给语义分析模块;语义分析模块,用于获得足够表明一组完整的单词,并通过语义语境分析,对获取的单词矫正,并组合成完整正确语义的语句或者命令,并通过输出的语句或者命令进行控制操作。所述图像分析模块具体工作流程如下:步骤21:接收图像捕获模块传输过来的深度图像视频数据;步骤22:进行人手部矩形框选坐标的识别;步骤23:通过循环神经网络进行基于时序信息的跟踪;步骤24:通过提取深度图像框选区域为感兴趣区域,并对框选区域深度图像进行手部关节3d坐标提取;步骤25:将提取的手部关节3d坐标输入到手语分析模块。人手检测是通过模型对手部特征的比对以及前后帧的对比进行方位大小的定位,从而提取出操作人员手部位置信息的检测方法。训练过程中的时序图像采用图像捕获模块提取的时序视频。而对视频中的手部位置标注采用非实时性但准确率较高的基于卷积神经网络的yolov3模型,并配合人工修正的方式进行图像标注。对不同的人进行不同的数据本文档来自技高网...

【技术保护点】
1.一种基于深度图像动态手语语义识别系统,其特征在于,包括:图像捕获模块,用于捕获操作者的深度图像视频数据并将每一帧深度图像传输给图像分析模块;图像分析模块,用于处理深度图像视频数据,得到手部关节3d坐标并输出给手语分析模块;手语分析模块,用于获取足够长度的手部关节3d坐标队列,并提取子队列进行分析,获得子队列可能表示的单词,并将所述单词传递给语义分析模块;语义分析模块,用于获得足够表明一组完整的单词,并通过语义语境分析,对获取的单词矫正,并组合成完整正确语义的语句或者命令,并通过输出的语句或者命令进行控制操作。

【技术特征摘要】
1.一种基于深度图像动态手语语义识别系统,其特征在于,包括:图像捕获模块,用于捕获操作者的深度图像视频数据并将每一帧深度图像传输给图像分析模块;图像分析模块,用于处理深度图像视频数据,得到手部关节3d坐标并输出给手语分析模块;手语分析模块,用于获取足够长度的手部关节3d坐标队列,并提取子队列进行分析,获得子队列可能表示的单词,并将所述单词传递给语义分析模块;语义分析模块,用于获得足够表明一组完整的单词,并通过语义语境分析,对获取的单词矫正,并组合成完整正确语义的语句或者命令,并通过输出的语句或者命令进行控制操作。2.根据权利要求1所述的系统,其特征在于,所述图像分析模块具体工作流程如下:步骤21:接收图像捕获模块传输过来的深度图像视频数据;步骤22:进行人手部矩形框选坐标的识别;步骤23:通过循环神经网络进行基于时序信息的跟踪;步骤24:通过提取深度图像框选区域为感兴趣区域,并对框选区域深度图像进行手部关节3d坐标提取;步骤25:将提取的手部关节3d坐标输入到手语分析模块。3.根据权利要求2所述的系统,其特征在于,所述步骤22具体为:步骤221:通过图像发现并提取手部信息;步骤222:对视频前后帧图像时序信息进行手部跟踪,根据检测结果确定目标矩形框选区域;步骤223:持续跟踪手部,直到跟踪的手部信息消失,并返回步骤221。4.根据权利要求2所述的系统,其特征在于,所述对框选区域深度图像进行手部关节3d坐标提取,具体为:步骤241:接收框选后截取的深度图像;步骤242:将深度图像以图像像素值最高点为基准截取到阈值的所有像素;步骤243:将深度图像归一化到相同尺寸;步骤244:以像素最低点的像素值为0,像素最高点的像素值为1,将图像进行归一化操作;步骤245:将归一化后图像输入基于深度参差网络模型输出手部关节三维坐标;步骤246:将手部关节三维坐标输出到手语分析模块中。5.根据权利要求2、3或4所述的系统,其特征在于,所述手语分析模块具体用于将手部的...

【专利技术属性】
技术研发人员:刘禹欣李文越杜国铭赵雪洁宁可
申请(专利权)人:哈尔滨拓博科技有限公司
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1