手语翻译方法、基于MR的手语-语音交互方法及系统技术方案

技术编号:23191399 阅读:17 留言:0更新日期:2020-01-24 16:26
本发明专利技术公开了一种手语翻译方法、基于MR的手语‑语音交互方法及系统,采集手语使用者手语的RGB‑D图像进行翻译,虚拟场景中手语使用者的虚拟人物模型将手语释义朗读为音频,语音使用者的虚拟人物模型将语音释义对应的手语动作进行演示。本发明专利技术对手语动作实现实时翻译,并可使用该翻译方法与语音使用者进行交互,可应用在多种场景,尤其在医患交流场景中,能够实现医患使用自己熟悉的语言方式进行无障碍交流,提高了诊疗效率,增强了双方的体验,MR技术展现手语翻译之后的医患交流场景,达到聋哑患者医患交流的完美效果。且利用深度学习技术训练模型可使得手语翻译系统更加精确。

Sign language translation method, Mr based sign language speech interaction method and system

【技术实现步骤摘要】
手语翻译方法、基于MR的手语-语音交互方法及系统
本专利技术涉及MR技术,尤其是一种手语翻译方法、基于MR的手语-语音交互方法及系统。
技术介绍
手语作为一种可视化语言,它主要靠手及手臂的运动姿态辅以适当的表情和口型来表达语意,是聋哑患者与外界交流的重要途径。据最新资料统计,我国聋哑患者数量达到2057万人,占人口总数的1.67%,而我国医院配置的手语医护人员非常稀缺,因此聋哑患者就医不便,常常耽误病情诊断。如何提升聋哑患者的生活品质,使他们更好的融入社会,是国家重点研究的一个课题。随着MR技术及深度学习技术的进一步发展,特别是3DCamera对三维手势的捕捉,使用手语翻译更加精确和流畅,利用MR技术构造面对面的交互系统,利用深度学习训练手语的医患翻译系统,实现聋哑患者正常的医患交流。
技术实现思路
专利技术目的:针对上述现有技术存在的缺陷,本专利技术旨在提供一种基于MR的手语医患交互系统。技术方案:一种手语翻译方法,包括如下步骤:(1)获取手语动作的RGB-D图像;(2)提取出RGB-D图像中的手势特征信息,所述手势特征信息为手部各关节点在各时刻的特征旋转矩阵;(3)将手势特征信息与预设的手势特征翻译模型进行匹配;(4)将手势特征翻译模型匹配的手语释义按照时间序列组合作为翻译结果。进一步的,步骤(3)中所述预设的手势特征翻译模型通过如下方法建立:(3.1)获取大量手语的RGB-D图像样本;(3.2)提取出RGB-D图像样本中的手势特征信息;(3.3)标定手势特征信息对应的手语释义;(3.4)使用深度学习算法训练手势特征信息与手语释义对应的手势特征翻译模型。一种基于MR的手语-语音交互方法,包括:采集手语使用者手语的RGB-D图像,使用前述手语翻译方法进行翻译;采集语音使用者的语音并翻译为文本信息;构建虚拟场景,建立手语使用者及语音使用者的虚拟人物模型;虚拟场景中手语使用者的虚拟人物模型将手语释义朗读为音频,语音使用者的虚拟人物模型将语音释义对应的手语动作进行演示。进一步的,所述建立手语使用者及语音使用者的虚拟人物模型的方法为:采集使用者的RGB-D图像,建立使用者的彩色点云模型;使用TSDF方法进行模型表面重建和平滑,完成虚拟人物的建立。进一步的,所述构建虚拟场景为构建平面虚拟场景或构建3D虚拟场景;构建3D虚拟场景的方法为:采集选定场景的RGB-D图像,获取RGB-D图像的3D点云信息,利用3D点云信息建立各使用者视角的MR虚拟场景。进一步的,所述语音使用者的虚拟人物模型将语音释义对应的手语动作进行演示的方法为:制作各会话语句对应手语动作的视频模型;手语动作的视频模型可通过录制视频或绘制三维模型动画的方式制作;获取虚拟人物模型的头像模型并将其设置在手语动作的视频模型中。进一步的,语音使用者可选择是否键入文字以校正由语音翻译的文本信息;语音使用者可选择是否直接键入文字以替代语音翻译。进一步的,还包括:采集交互过程中手语翻译得到的手语释义信息和语音翻译得到的文本信息,标记各信息的发出者,并按照时间顺序形成纪录存储。一种基于MR的手语-语音交互系统,包括处理终端以及与之通信连接的手语使用者客户端及语音使用者客户端;所述手语使用者客户端包括用于获取手语动作的RGB-D图像的3D体感摄像头、用于显示的显示器;语音使用者客户端包括用于采集语音的麦克风、用于播放语音的扬声器、用于显示的显示器;所述处理模块用于构建虚拟场景,建立手语使用者及语音使用者的虚拟人物模型、翻译手语使用者客户端的手语动作并传输至语音使用者客户端播放翻译后朗读的音频、采集语音使用者的语音并翻译为文本信息、生成语音使用者虚拟人物模型将语音释义对应的手语动作进行演示的画面并传输至语音使用者客户端显示。进一步的,还包括3D场景摄像头,用于为构建虚拟场景采集选定场景的RGB-D图像。有益效果:本专利技术对手语动作实现实时翻译,并可使用该翻译方法与语音使用者进行交互,可应用在多种场景,尤其在医患交流场景中,能够实现医患使用自己熟悉的语言方式进行无障碍交流,提高了诊疗效率,增强了双方的体验,MR技术展现手语翻译之后的医患交流场景,达到聋哑患者医患交流的完美效果。且利用深度学习技术训练模型可使得手语翻译系统更加精确。附图说明图1是本专利技术的结构示意图。具体实施方式下面通过一个最佳实施例并结合附图对本技术方案进行详细说明。一种手语翻译方法,包括如下步骤:(1)获取手语动作的RGB-D图像,RGB-D图像即为彩色(RGB)+深度(DepthMap)图像,可由TOF、RGB双目、结构光等方案实现,可由3D体感摄像头等深度相机拍摄得到;拍摄后对彩色图像和RGB-D图像实施配准和同步,配准算法使得深度相机和彩色相机采集的是完全相同的场景,可以进行彩色图像和深度的像素映射,同步功能可以保证彩色和深度的同步输出;(2)提取出RGB-D图像中的手势特征信息,所述手势特征信息为手部各关节点在各时刻的特征旋转矩阵;(3)将手势特征信息与预设的手势特征翻译模型进行匹配;预设的手势特征翻译模型通过如下方法建立:(3.1)获取手语的RGB-D图像样本;手语的RGB-D图像样本是大量的,此处的“大量”没有具体对数量的限定,按照本领域的常识,选用常规建模的样本量即可,且多多益善。之后对手语的RGB-D图像进行预处理,预处理包括图像平滑、去噪等。(3.2)提取出RGB-D图像样本中的手势特征信息;(3.3)标定手势特征信息对应的手语释义;(3.4)使用深度学习算法训练手势特征信息与手语释义对应的手势特征翻译模型。(4)将手势特征翻译模型匹配的手语释义按照时间序列组合作为翻译结果。如图1所示,一种基于MR的手语-语音交互系统及方法,其系统包括处理终端以及与之通信连接的手语使用者客户端及语音使用者客户端;所述手语使用者客户端包括用于获取手语动作的RGB-D图像的3D体感摄像头、用于显示的显示器;语音使用者客户端包括用于采集语音的麦克风、用于播放语音的扬声器、用于显示的显示器、用于键入文字的文字输入设备;所述处理模块用于构建虚拟场景,建立手语使用者及语音使用者的虚拟人物模型、翻译手语使用者客户端的手语动作并传输至语音使用者客户端播放翻译后朗读的音频、采集语音使用者的语音并翻译为文本信息、生成语音使用者虚拟人物模型将语音释义对应的手语动作进行演示的画面并传输至语音使用者客户端显示。处理模块还与3D场景摄像头通信连接,3D场景摄像头用于为构建虚拟场景采集选定场景的RGB-D图像,也可以与手语使用者客户端的3D体感摄像头选用同款产品,也可以共用一个。采用本司A100和A100M等产品即可实现3D体感摄像头的功能,拍摄RGB-D图像。该本文档来自技高网...

【技术保护点】
1.一种手语翻译方法,其特征在于,包括如下步骤:/n(1)获取手语动作的RGB-D图像;/n(2)提取出RGB-D图像中的手势特征信息,所述手势特征信息为手部各关节点在各时刻的特征旋转矩阵;/n(3)将手势特征信息与预设的手势特征翻译模型进行匹配;/n(4)将手势特征翻译模型匹配的手语释义按照时间序列组合作为翻译结果。/n

【技术特征摘要】
1.一种手语翻译方法,其特征在于,包括如下步骤:
(1)获取手语动作的RGB-D图像;
(2)提取出RGB-D图像中的手势特征信息,所述手势特征信息为手部各关节点在各时刻的特征旋转矩阵;
(3)将手势特征信息与预设的手势特征翻译模型进行匹配;
(4)将手势特征翻译模型匹配的手语释义按照时间序列组合作为翻译结果。


2.根据权利要求1所述的手语翻译方法,其特征在于,步骤(3)中所述预设的手势特征翻译模型通过如下方法建立:
(3.1)获取大量手语的RGB-D图像样本;
(3.2)提取出RGB-D图像样本中的手势特征信息;
(3.3)标定手势特征信息对应的手语释义;
(3.4)使用深度学习算法训练手势特征信息与手语释义对应的手势特征翻译模型。


3.一种基于MR的手语-语音交互方法,其特征在于,包括:
采集手语使用者手语的RGB-D图像,使用权利要求1或2的手语翻译方法进行翻译;
采集语音使用者的语音并翻译为文本信息;
构建虚拟场景,建立手语使用者及语音使用者的虚拟人物模型;
虚拟场景中手语使用者的虚拟人物模型将手语释义朗读为音频,语音使用者的虚拟人物模型将语音释义对应的手语动作进行演示。


4.根据权利要求3所述的基于MR的手语-语音交互方法,其特征在于,所述建立手语使用者及语音使用者的虚拟人物模型的方法为:
采集使用者的RGB-D图像,建立使用者的彩色点云模型;
使用TSDF方法进行模型表面重建和平滑,完成虚拟人物的建立。


5.根据权利要求3所述的基于MR的手语-语音交互方法,其特征在于,所述构建虚拟场景为构建平面虚拟场景或构建3D虚拟场景;构建3D虚拟场景的方法为:采集选定...

【专利技术属性】
技术研发人员:闫国启李骊
申请(专利权)人:北京华捷艾米科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1