一种基于AI的聋哑人士语音手势识别方法技术

技术编号:38757167 阅读:12 留言:0更新日期:2023-09-10 09:42
本发明专利技术属于手势识别技术领域,提供了一种基于AI的聋哑人士语音手势识别方法,采集聋哑人士的手势特征后,通过计算模型将手势特征的二维坐标信息还原三维坐标信息;利用手势特征降维,通过手部骨架模型与手指结构数据,计算各手指间的角度信息;通过存储序列、序列断句与语义组合,使连续手势序列得到正确的解释;利用TTS接口,将语义断句组合成的手势语义文本信息转化为语音信息进行输出;本发明专利技术使得仅需少量数据即可训练得到有效的神经网络模型;可以避免深度图像在处理手势信息时的精度受限的问题,进一步提高手势特征识别的精度,减少特征处理环节的误差;可以使手势特征的文本信息进行准确表达,有效表达使用者的意图。有效表达使用者的意图。有效表达使用者的意图。

【技术实现步骤摘要】
一种基于AI的聋哑人士语音手势识别方法


[0001]本专利技术属于手势识别
,具体地说是一种基于AI的聋哑人士语音手势识别方法。

技术介绍

[0002]聋哑人士是指耳朵听不到东西,嘴巴发不出声音的人群;这类人群主要分为两大部分:一部分是听的见但不会说话,另一部分是既听不见也不会说话,聋哑人士与不懂手语的人很难沟通交流,为了使聋哑人士与外界有更多的交流,市面上开始出现各类手势识别方法,以此来减少聋哑人士与外界之间的交流隔阂。
[0003]目前,现有的手势是识别方法中,多数都是以手部骨架信息为输入数据,直接进行神经网络的训练与识别,这些骨架信息一般都是结合深度图像生成的三维骨架关键点坐标;使用骨架信息作为输入,以及神经网络内部具体的参数意义不可知,使得训练会非常依赖大规模的数据集;使用深度图像计算三维坐标容易造成信息误差,深度图像的精度取决于传感器的分辨率和测量范围,使得深度图像的精度受限,进一步地造成原始数据的误差。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提供一种基于AI的聋哑人士语音手势识别方法,以解决现有技术训练依赖大规模的数据集、深度图像的精度受限等问题。
[0005]一种基于AI的聋哑人士语音手势识别方法,包含以下步骤:
[0006]步骤1:还原三维坐标信息,对聋哑人士的手势特征进行采集,通过计算模型将手势特征的二维坐标信息还原三维坐标信息,计算模型是基于手部骨架模型的计算,用于减少特征处理环节的误差,提高处理手势特征信息的精度;
[0007]步骤2:手势特征降维,使用还原的三维信息,通过手部骨架模型与手指结构数据,计算各手指间的角度信息,用于去除无用信息,使以少量数据即可训练得到有效的神经网络模型;
[0008]步骤3:语义断句组合,先将每个识别到的手势标签序列存放到存储序列中,然后通过序列断句将整个序列分隔成表示单个语句的短序列,最后通过语义组合,将进行组合的几个标签换成组合标签;
[0009]步骤4:语音输出,利用TTS接口,将语义断句组合成的手势语义文本信息转化为语音信息进行输出。
[0010]优选的,所述手部骨架模型包括21个手部关键点,关键点标号为0~20。
[0011]优选的,所述手指结构数据包括手指关节处角度、手指平面间角度和大拇指相关角度,所述手指关节处角度包括除大拇指外的四指的每个手指关节处的角度,每个手指3个,共12个;相邻手指平面间的角度包括食指与中指、中指与无名指和无名指与小拇指的之间的角度,共3个;大拇指最末关节处的角度,共1个;大拇指1、3关键点连线与三个坐标轴间的角度,共3个。
[0012]优选的,所述步骤1中的计算模型计算过程如下:
[0013](1)边的标记
[0014]将每两个关键点之间的真实距离称为l
p0,p1
,其对应的投影点之间在投影面上的距离称为
[0015](2)点的标记
[0016](a)将每个关键点在三维空间中的坐标称为真实坐标,标记P
n
(x
n
,y
n
,z
n
);
[0017](b)将每个关键点在投影面中的点称为该点的投影对应点,将投影对应点在投影面上以某组标准正交基为基底的坐标称为投影相对坐标,标记为
[0018](c)将每个关键点在投影面中的投影对应点在三维空间中的坐标,称为投影绝对坐标,标记为P'
n
(x'
n
,y'
n
,z'
n
);
[0019](3)设定关键点坐标
[0020]将手部骨架模型中的部分关键点以关键点0为原点置于二维坐标系中,依次推算此部分关键点的三维坐标;
[0021]推算其余关键点的三维坐标
[0022](a)获得待求点P
m
(x
m
,y
m
,z
m
)的投影相对坐标
[0023](b)获得P
m
的投影绝对坐标;
[0024](c)获得P
m
,P'
m
两点在三维空间中连线的直线方程L;
[0025](d)获得临近P
m
的已知点的真实坐标;
[0026](e)获得P
m
的两个可能的解;
[0027](f)只留下P
m
可能性最大的解。
[0028]优选的,所述步骤3中具体方法为首先创建存储序列,是用于存放识别到的手势标签的队列,对于每个识别到的手势,将其添加到队尾;然后进行序列断句,长串序列无法表示具体语义,以“\n”作为简短序列的分隔标识;最后通过语义组合,准确地表达具体语义。
[0029]优选的,所述TTS接口包括离线接口与联网接口,将处理好的手势文本信息送入任意一个接口,将文本信息转化为对应的语音信息进行输出。
[0030]与现有技术相比,本专利技术具有如下有益效果:
[0031]1、本专利技术通过还原三维坐标信息,利用计算模型将手势特征的二维坐标信息还原三维坐标信息,可以避免深度图像在处理手势信息时的精度受限的问题,进一步提高手势特征识别的精度,减少特征处理环节的误差。
[0032]2、本专利技术通过手势特征降维,使用还原的三维信息,计算手指关节处角度、手指平面间角度和大拇指相关角度,利用相关角度计算用来识别手势信息,可以使手势信息在不丢失必要信息的前提下去除无用信息,达到进一步的手势信息识别的作用,使得仅需少量数据即可训练得到有效的神经网络模型。
[0033]3、本专利技术通过语义断句组合,对识别到的手势特征进行存储,然后把长串序列分隔为表示单个语句的短序列,再将短序列进行语义组合,以此来准确表达出手势特征的文本信息,可以使连续手势序列得到正确的解释,有效表达使用者的意图。
附图说明
[0034]图1为本专利技术一种基于AI的聋哑人士语音手势识别方法的流程示意图;
[0035]图2为本专利技术一种基于AI的聋哑人士语音手势识别方法的手部骨架模型示意图;
[0036]图3为本专利技术中手指关节处角度以及手指平面间角度的示意图;
[0037]图4为本专利技术中大拇指相关角度示意图;
[0038]图5为本专利技术中步骤1的计算模型的符号说明示意图;
[0039]图6为本专利技术中步骤1的计算模型实施例示意图一;
[0040]图7为本专利技术中步骤1的计算模型实施例示意图二;
[0041]图8为本专利技术中步骤1的计算模型实施例示意图三;
[0042]图9为本专利技术中步骤3的语义断句组合流程示意图。
具体实施方式
[0043]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于AI的聋哑人士语音手势识别方法,其特征在于:包含以下步骤:步骤1:还原三维坐标信息,对聋哑人士的手势特征进行采集,通过计算模型将手势特征的二维坐标信息还原三维坐标信息,计算模型是基于手部骨架模型的计算,用于减少特征处理环节的误差,提高处理手势特征信息的精度;步骤2:手势特征降维,使用还原的三维信息,通过手部骨架模型与手指结构数据,计算各手指间的角度信息,用于去除无用信息,使以少量数据即可训练得到有效的神经网络模型;步骤3:语义断句组合,先将每个识别到的手势标签序列存放到存储序列中,然后通过序列断句将整个序列分隔成表示单个语句的短序列,最后通过语义组合,将进行组合的几个标签换成组合标签;步骤4:语音输出,利用TTS接口,将语义断句组合成的手势语义文本信息转化为语音信息进行输出。2.如权利要求1所述一种基于AI的聋哑人士语音手势识别方法,其特征在于:所述手部骨架模型包括21个手部关键点,关键点标号为0~20。3.如权利要求1所述一种基于AI的聋哑人士语音手势识别方法,其特征在于:所述手指结构数据包括手指关节处角度、手指平面间角度和大拇指相关角度,所述手指关节处角度包括除大拇指外的四指的每个手指关节处的角度,每个手指3个,共12个;相邻手指平面间的角度包括食指与中指、中指与无名指和无名指与小拇指的之间的角度,共3个;大拇指最末关节处的角度,共1个;大拇指1、3关键点连线与三个坐标轴间的角度,共3个。4.如权利要求2所述一种基于AI的聋哑人士语音手势识别方法,其特征在于:所述步骤1中的计算模型计算过程如下:(1)边的标记将每两个关键点之间的真实距离称为l
p0,p1
,其对应的投影点之间在投影面上的距离称为(2)点的标记(a)将每个关键点在三维空间中的坐标称为真实坐标,标记P
n
(x
n
,y

【专利技术属性】
技术研发人员:王艳周亚飞
申请(专利权)人:南昌航空大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1