当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于机器视觉的轻量化精准手指语智能算法识别方法技术

技术编号:34524969 阅读:21 留言:0更新日期:2022-08-13 21:15
本发明专利技术属于手语识别技术领域,具体涉及一种基于机器视觉的轻量化精准手指语智能算法识别方法,具体步骤包括:第一步单目相机采集图像信息,以Finger

【技术实现步骤摘要】
一种基于机器视觉的轻量化精准手指语智能算法识别方法


[0001]本专利技术属于手语识别
,具体涉及一种基于机器视觉的轻量化精准手指语智能算法识别方法。

技术介绍

[0002]手语既是聋哑人交流的基础语言,也是聋哑人生存的重要工具。目前我国手语老师的人数严重不足,聋哑人中64%的人不会手语,特别是贫困地区聋哑孩童,很难有学习手语的机会,无法正常生活。手指语作为中国手语的一部分是聋哑教育的辅助工具,与有声语言表达顺序一致且数量不多、易学易记,适用于手语的基础教育。
[0003]中国公开专利CN 110399850B公开了一种基于神经网络的连续手语识别方法,具体为:采用Kinect采集彩色视频文件、深度视频文件、以及25个骨骼点空间位置坐标,建立孤立词手语数据库及连续手语数据库,完成对手型图像预处理,再构建两个结构相同的改进AlexNet神经网络模型,并对预处理后的孤立词手语数据库的训练样本进行训练;之后固定双路AlexNet神经网络模型权重,将全连接层和softmax层丢弃;选取出预处理后的连续手语数据库中RCB

D视频分帧图像文件的关键片段并进行测试,最后将输出的关键帧嵌入注意力机制的分层LSTM编解码网络模型,输出连续手语的识别结果。该公开专利存在以下缺陷:
[0004]1、使用Kinect深度相机采集图像信息成本过高,聋哑人士家庭负担不起;
[0005]2、直接使用Kinect自带的方法直接在采集的图像上进行骨骼点定位会导致骨骼点定位不准确且处理速度慢,影响最终识别结果;
[0006]3、手语识别过程中背景复杂,难免会有非操作人员手部出现,可能会误判到其他人的手势影响手语识别结果。
[0007]为解决上述技术问题,本申请有很必要提出一种基于机器视觉的轻量化精准手指语智能算法识别方法。

技术实现思路

[0008]本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种基于机器视觉的轻量化精准手指语智能算法识别方法,采用机器视觉的方法对手指语进行识别,不仅能够快速、精准的识别出手指语中的全部手势,而且可以排除非操作人员的手部干扰,能够完成手语基础教学,促进我国聋哑人教育事业的发展。
[0009]为了实现上述目的,本专利技术采用了如下技术方案:
[0010]一种基于机器视觉的轻量化精准手指语智能算法识别方法,包括如下步骤:
[0011]S1、操作人员面向单目相机,手部区域出现在相机视野范围内,启动识别算法;
[0012]S2、单目相机采集图像信息,采用Finger

YOLOv4算法对采集的图像信息处理,框选出手部的区域;
[0013]S3、在框选的手部区域内基于稀疏性目标提取算法锁定操作人员手部区域排除非
操作人员手部干扰;
[0014]S4、在操作人员手部区域内基于双特征条件随机场网络进行深度学习,识别出手部区域的21个关键点的坐标;
[0015]S5、根据21个关键点坐标的位置关系采用强制坐标法推理出当前手势表达的手指语。
[0016]进一步的,在S2中,Finger

YOLOv4算法是在YOLOv4算法的基础上进行改进,改进方式包括:结合通道注意力机制、孪生模块、深度可分离卷积搭建Finger

bneck网络模块;将MobileNetv3中的bneck进行改进为Finger

bneck;采用改进型MobileNetv3替换YOLOv4的主干网络CSPDarkNet;将YOLOv4的Head结构简化为2个分支。
[0017]进一步的,结合通道注意力机制是用于通道之间的重要性调节,在一个正常卷积之后首先进行全局化操作,使用池化层获取通道级的全局特征值,定义全局化操作为F
sq
,运算公式为:
[0018][0019]式中表示全局化操作的结果,W、H表示输入特征图的宽和高,U
c
表示经过一个正常卷积后的输出,它将空间维度进行特征压缩,即每个二维的特征图变成一个实数,相当于具有全局感受野的池化操作,特征通道数不变;然后利用全连接层对全局特征值进行调节排序,学习获取各个通道的权重;最后利用学习的权重值对原特征进行加权处理。在增加少量计算量的情况下,获得了更明显的性能提升。
[0020]进一步的,孪生模块是用来降低神经网络大小和计算资源占用的网络模块,定义常规的卷积公式Y=X*f+b,式中*是卷积操作,X是输入特征图,是输出的特征图,h

是输出的高、w

是输出的宽、n是输出维度即卷积核个数,是卷积核,c是通道数,k是卷积核的高和宽,n是输出维度,b是偏置操作。定义整个卷积操作的FLOPs为F,计算公式:
[0021]F=n
×
h
′×
w
′×
c
×
k
×
k
[0022]式中F为卷积操作的FLOPs,n是卷积操作的输出维度,c是通道数,h

是输出的高,w

是输出的宽,k是卷积操作中卷积核的高和宽;孪生模块相对卷积操作进行了改进,第一步使用更少的卷积核生成输出特征图定义原卷积核个数为n,现在使用更少的卷积核个数为m;第二步对第一步生成的每一张特征图进行深度卷积操作,每张特征图生成s张新的特征图共计m
×
s张,保证m
×
s=n即保证孪生操作和普通卷积输出的特征形状相同;第三步将特征图拼接到一起。孪生模块的第一步卷积公式为Y

=X*f

,省去偏置操作,式中是输出的特征图,h

是输出的高、w

是输出的宽、m是输出维度,*是卷积操作,X是输入特征图,是卷积核,c是通道数,k是卷积核的高和宽,m是输出维度,其余超参数都与卷积操作保持一致。定义整个孪生操作的FLOPs为F

,计算公式:
[0023]F

=(m
×
h
′×
w
′×
c
×
k
×
k)+[(s

1)
×
m
×
h
′×
w
′×
d
×
d][0024]式中F

为孪生操作的FLOPs,m是孪生操作的输出维度,c是通道数,h

是输出的高,w

是输出的宽,k是卷积操作中卷积核的高和宽,d是孪生操作中卷积核的高和宽,定义卷积
操作和孪生操作的加速比为T
S
,计算公式为:
[0025][0026]式中T
S
为加速度比,F为卷积操作的FLOPs,F

为孪生操作的FLOPs,n是卷积操作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器视觉的轻量化精准手指语智能算法识别方法,其特征在于:包括如下步骤:S1、操作人员面向单目相机,手部区域出现在相机视野范围内,启动识别算法;S2、单目相机采集图像信息,采用Finger

YOLOv4算法对采集的图像信息处理,框选出手部的区域;S3、在框选的手部区域内基于稀疏性目标提取算法锁定操作人员手部区域排除非操作人员手部干扰;S4、在操作人员手部区域内基于双特征条件随机场网络进行深度学习,识别出手部区域的21个关键点的坐标;S5、根据21个关键点坐标的位置关系采用强制坐标法推理出当前手势表达的手指语。2.根据权利要求1所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法,其特征在于:在S2中,Finger

YOLOv4算法是在YOLOv4算法的基础上进行改进,改进方式包括:结合通道注意力机制、孪生模块、深度可分离卷积搭建Finger

bneck网络模块,将MobileNetv3中的bneck进行改进为Finger

bneck;采用改进型MobileNetv3替换YOLOv4的主干网络CSPDarkNet;将YOLOv4的Head结构简化为2个分支。3.根据权利要求2所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法,其特征在于:结合通道注意力机制是用于通道之间的重要性调节,在一个正常卷积之后首先进行全局化操作,使用池化层获取通道级的全局特征值,定义全局化操作为F
sq
,运算公式为:式中表示全局化操作的结果,W、H表示输入特征图的宽和高,U
c
表示经过一个正常卷积后的输出,将空间维度进行特征压缩,即每个二维的特征图变成一个实数,相当于具有全局感受野的池化操作,特征通道数不变;然后利用全连接层对全局特征值进行调节排序,学习获取各个通道的权重;最后利用学习的权重值对原特征进行加权处理。4.根据权利要求2所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法,其特征在于:孪生模块是用来降低神经网络大小和计算资源占用的网络模块,定义常规的卷积公式Y=X*f+b,式中*是卷积操作,X是输入特征图,是输出的特征图,h

是输出的高、w

是输出的宽、n是输出维度即卷积核个数,是卷积核,c是通道数,k是卷积核的高和宽,n是输出维度,b是偏置操作;定义整个卷积操作的FLOPs为F,计算公式:F=n
×
h
′×
w
′×
c
×
k
×
k式中F为卷积操作的FLOPs,n是卷积操作的输出维度,c是通道数,h

是输出的高,w

是输出的宽,k是卷积操作中卷积核的高和宽;孪生模块相对卷积操作进行了改进,第一步使用更少的卷积核生成输出特征图定义原卷积核个数为n,现在使用更少的卷积核个数为m;第二步对第一步生成的每一张特征图进行深度卷积操作,每张特征图生成s张新的特征图共计m
×
s张,保证m
×
s=n即保证孪生操作和普通卷积输出的特征形状相同;第三步将特征图拼接到一起;孪生模块的第一步卷积公式为Y

=X*f

,省去偏置操作,式中是输出的特征图,h

是输出的高、w

是输
出的宽、m是输出维度,*是卷积操作,X是输入特征图,是卷积核,c是通道数,k是卷积核的高和宽,m是输出维度,其余超参数都与卷积操作保持一致;定义整个孪生操作的FLOPs为F

,计算公式:F

=(m
×
h
′×
w
′×
c
×
k
×
k)+[(s

1)
×
m
×
h
′×
w
′×
d
×
d]式中F

为孪生操作的FLOPs,m是孪生操作的输出维度,c是通道数,h

是输出的高,w

是输出的宽,k是卷积操作中卷积核的高和宽,d是孪生操作中卷积核的高和宽;定义卷积操作和孪生操作的加速比为T
S
,计算公式为:式中T
S
为加速度比,F为卷积操作的FLOPs,F

为孪生操作的FLOPs,n是卷积操作的输出维度,m是孪生操作的输出维度,c是通道数,h

是输出的高,w

是输出的宽,k是卷积操作中卷积核的高和宽,d是孪生操作中卷积核的高和宽,s是新的特征图的张数,卷积操作的FLOPs是孪生模块的s倍。5.据权利要求2所述的一种基于机器视觉的轻量化精准手指语智能算法识别方法,其特征在于:深度可分离卷积搭建Finger

bneck网络模块其核心思想是将一个完整的卷积分两部分进行,一部分是逐点卷积、另外一部分是逐深度卷积;逐点卷积是采用1
×
1的卷积组合不同深度卷积的输出,得到一组新的输出,定义其过程中使用大小为C
p
×1×
1的卷积核,数量为C
o
个;逐深度卷积是将单个滤波器应用到每个通道上,定义输入特征图的每个通道通过一个d
×
d的卷积核,深度可分离卷积所需参数量为F
d
的计算公式为:F
d
=C
o
×1×
1+C
p
×
d
×
d式中F
d
为深度可分离卷积所需参数量,为C
o
为卷积核数量,C
p
为通道数,d为卷积核大小。6.根据权利要求2所述的一种基于机器视觉的轻...

【专利技术属性】
技术研发人员:张堃刘志诚徐沛霞林鹏程刘纪元涂鑫涛任婉莹韩宇
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1