一种基于机器视觉的手语识别方法技术

技术编号:32903951 阅读:10 留言:0更新日期:2022-04-07 11:54
本发明专利技术公开了手语识别领域的一种基于机器视觉的手语识别方法,包括根据待识别的手语视频构建上肢骨骼数据;获得包含上肢且无背景的检测图像;计算得到检测图像的像素特征以及上肢骨骼数据的骨骼特征;通过卷积神经网络分别对像素特征和骨骼特征进行提取,得到像素识别特征和骨骼识别特征;根据像素识别特征、骨骼识别特征获得识别向量;再将识别向量输入softmax层获得结果向量,结果向量中值最大的元素对应的手语词汇为识别结果;本发明专利技术通过识别双臂的移动和位置特征,增加了手语识别的范围,提高了手语识别的精度。提高了手语识别的精度。提高了手语识别的精度。

【技术实现步骤摘要】
一种基于机器视觉的手语识别方法


[0001]本专利技术属于手语识别领域,具体涉及一种基于机器视觉的手语识别方法。

技术介绍

[0002]随着手语的发展和完善,聋哑人之间已经可以通过手语轻松地交流,但聋哑人和正常人的交流仍然面临很大的困境,这就导致缺乏和社会的正常互动成为了聋哑人正常生活的一个主要障碍。聋哑人看病难的问题其实一直存在,现在聋哑人基本都是需要在手语翻译志愿者的帮助下才能正常看病,一般聋哑人生病不会去医院,只有当实在难以忍受时,才会选择去医院就诊,原因就是和医生的沟通非常困难。据世界聋人联合会统计,全世界有七千万的聋人,因此清除聋人和正常人交流的阻碍、促进他们融入社会、解决他们看病难的问题是如今势在必行的研究课题。
[0003]对于基于视觉的手语识别,研究者需要选择合适的数据进行研究。比如SalehAly等人在2020年的研究中选择只将手部图像作为使用的数据,所以他们研究的缺点在于利用的人体数据太少,并且视频数据中包含的背景噪声对识别准确度有一定影响,导致对手语的识别不准确,能够识别的手语也不全面。

技术实现思路

[0004]本专利技术的目的在于提供一种基于机器视觉的手语识别方法,通过识别双臂的移动和位置特征,增加了手语识别的范围,去除背景噪声,提高了手语识别的精度。
[0005]为达到上述目的,本专利技术所采用的技术方案是:
[0006]本专利技术提供了一种基于机器视觉的手语识别方法,包括:
[0007]获取待识别的手语视频,使用二维骨骼识别模型OpenPos识别手语视频中每一帧人像的骨骼关键点,构建上肢骨骼数据;
[0008]根据上肢骨骼数据裁剪手语视频中的每一帧原图像,并对裁剪后的图像剔除背景,获得包含上肢且无背景的检测图像;
[0009]计算得到检测图像的像素特征以及上肢骨骼数据的骨骼特征;
[0010]通过卷积神经网络分别对像素特征和骨骼特征进行提取,得到像素识别特征和骨骼识别特征;
[0011]将像素识别特征和骨骼识别特征进行融合,并输入Bi

LSTM网络获得识别向量;
[0012]再将识别向量输入softmax层获得结果向量,结果向量中值最大的元素对应的手语词汇为识别结果。
[0013]优选的,对裁剪后的原图像剔除背景的方法,包括:
[0014]采用预设的语义分割模型DeepLabV3+对裁剪后的图像剔除背景;其中,预设的语义分割模型DeepLabV3+的主干网络Xception替换为MobileNet V3。
[0015]优选的,根据上肢骨骼数据裁剪手语视频中的每一帧原图像,包括:
[0016]根据上肢骨骼数据计算裁剪边界,根据裁剪边界对手语视频中的每一帧原图像进
行裁剪;裁剪边界计算公式为:
[0017]x1=Max(D
x
)
[0018]x2=Min(D
x
)
[0019]y1=Max(D
y
)
[0020]y2=Min(D
y
)
[0021]其中,x1、x2、y1、y2分别表示右边界、左边界、上边界、下边界裁剪位置,Max()、Min()分别表示取参数中的最大值、最小值,D
x
、D
y
分别表示各上肢骨骼关键点的横坐标集合、纵坐标集合。
[0022]优选的,所述像素特征包括三值帧差特征和灰度像素特征;上肢骨骼数据的骨骼特征包括骨骼几何关系特征、骨骼轨迹特征和手部骨骼特征;通过卷积神经网络分别对三值帧差特征、灰度像素特征、骨骼几何关系特征、骨骼轨迹特征和手部骨骼特征进行提取,得到三值帧差识别特征、灰度像素识别特征、骨骼几何关系识别特征、骨骼轨迹识别特征和手部骨骼识别特征。
[0023]优选的,三值帧差特征计算过程,包括:
[0024]将检测图像中上肢部分的灰度值设定为255,将检测图像中其余部分的灰度值设定为0,得到二值化处理的检测图像;
[0025]计算二值化处理的检测图像中每个像素点的二值帧差特征D
n
(x,y),再根据二值帧差特征D
n
(x,y)计算三值帧差特征D'
n
(x,y),计算公式为:
[0026]D
n
(x,y)=f
n
(x,y)

f
n
‑1(x,y)
[0027][0028]其中,n表示手语视频中第n帧,x表示像素点的横坐标,y表示像素点的纵坐标,f
n
(x,y)、f
n
‑1(x,y)分别表示第n帧、第n

1帧二值化处理的检测图像中像素点(x,y)的灰度值,若n=1,则设n

1=1。
[0029]优选的,所述骨骼几何关系特征包括双手前臂夹角Angle、手腕间斜率K
w
、左腕脖向量特征WN
l
和右腕脖向量特征WN
r

[0030]所述双手前臂夹角Angle的计算公式为:
[0031]V1=P
lw

P
le
[0032]V2=P
rw

P
re
[0033][0034]其中,V1表示左手肘到左手腕骨骼关键点的向量,V2表示右手肘到右手腕骨骼关键点的向量,P
lw
、P
le
、P
rw
、P
re
分别表示左手腕、左手肘、右手腕、右手肘骨骼关键点坐标,Arccos()表示求参数的反余弦值,Dot(V1,V2)表示求向量V1和向量V2的点乘;
[0035]所述手腕间斜率K
w
的公式计算为:
[0036][0037]其中,y
left
、y
right
分别表示左手腕、右手腕骨骼关键点纵坐标,x
left
、x
right
分别表示左手腕、右手腕骨骼关键点横坐标;
[0038]左腕脖向量特征WN
l
和右腕脖向量特征WN
r
的计算公式为:
[0039]WN
l
=P
lw

P
n
[0040]WN
r
=P
rw

P
n
[0041]其中,P
n
表示脖子骨骼关键点坐标。
[0042]优选的,骨骼轨迹特征的计算过程为:
[0043]所述手语视频的帧数为N,矩阵M为手语视频中第m帧手腕骨骼轨迹特征;矩阵M的计算公式为:
[0044]V
trail
=P
curr

P
last
[0045][0046]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器视觉的手语识别方法,其特征在于,包括:获取待识别的手语视频,使用二维骨骼识别模型OpenPos识别手语视频中每一帧人像的骨骼关键点,构建上肢骨骼数据;根据上肢骨骼数据裁剪手语视频中的每一帧原图像,并对裁剪后的图像剔除背景,获得包含上肢且无背景的检测图像;计算得到检测图像的像素特征以及上肢骨骼数据的骨骼特征;通过卷积神经网络分别对像素特征和骨骼特征进行提取,得到像素识别特征和骨骼识别特征;将像素识别特征和骨骼识别特征进行融合,并输入Bi

LSTM网络获得识别向量;再将识别向量输入softmax层获得结果向量,结果向量中值最大的元素对应的手语词汇为识别结果。2.根据权利要求1所述的一种基于机器视觉的手语识别方法,其特征在于,对裁剪后的图像剔除背景的方法,包括:采用预设的语义分割模型DeepLabV3+对裁剪后的图像剔除背景;其中,预设的语义分割模型DeepLabV3+的主干网络Xception替换为MobileNet V3。3.根据权利要求1所述的一种基于机器视觉的手语识别方法,其特征在于,根据上肢骨骼数据裁剪手语视频中的每一帧原图像,包括:根据上肢骨骼数据计算裁剪边界,根据裁剪边界对手语视频中的每一帧原图像进行裁剪;裁剪边界计算公式为:x1=Max(D
x
)x2=Min(D
x
)y1=Max(D
y
)y2=Min(D
y
)其中,x1、x2、y1、y2分别表示右边界、左边界、上边界、下边界裁剪位置,Max()、Min()分别表示取参数中的最大值、最小值,D
x
、D
y
分别表示各上肢骨骼关键点的横坐标集合、纵坐标集合。4.根据权利要求1所述的一种基于机器视觉的手语识别方法,其特征在于,所述像素特征包括三值帧差特征和灰度像素特征;上肢骨骼数据的骨骼特征包括骨骼几何关系特征、骨骼轨迹特征和手部骨骼特征;通过卷积神经网络分别对三值帧差特征、灰度像素特征、骨骼几何关系特征、骨骼轨迹特征和手部骨骼特征进行提取,得到三值帧差识别特征、灰度像素识别特征、骨骼几何关系识别特征、骨骼轨迹识别特征和手部骨骼识别特征。5.根据权利要求4所述的一种基于机器视觉的手语识别方法,其特征在于,所述上肢骨骼数据在手指和手掌设有21个骨骼关键点,手指和手掌的骨骼关键点构成手部骨骼特征。6.根据权利要求4所述的一种基于机器视觉的手语识别方法,其特征在于,三值帧差特征计算过程,包括:将检测图像中上肢部分的灰度值设定为255,将检测图像中其余部分的灰度值设定为0,得到二值化处理的检测图像;计算二值化处理的检测图像中每个像素点的二值帧差特征D
n
(x,y),再根据二值帧差特征D
n
(x,y)计算三值帧差特征D'
n
(x,y),计算公式为:
D
n
(x,y)=f
n
(x,y)

f
n
‑1(x,y)其中,n表示手语视频中第n帧,x表示像素点的横坐标,y表示像素点的纵坐标,f
n
(x,y)、f
n
‑1(x,y)分别表示第n帧、第n

1帧二值化处理的检测图像中像素点(x,y)的灰度值,若n=1,则设n

1=1。7.根据权利要求4所述的一种基于机器视觉的手语...

【专利技术属性】
技术研发人员:张小瑞曾祥龙孙伟宋爱国刘佳邓志良
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1