一种基于改进YOLOv5的复杂场景下手语识别方法技术

技术编号:41814979 阅读:112 留言:0更新日期:2024-06-24 20:32
本发明专利技术提出一种基于改进YOLOv5的复杂场景下手语识别方法,首先对主干网络进行改进,先引入改进的快速金字塔池化(SimSPPF)替换掉原YOLOv5中的骨干网络末端的金字塔池化块(SPPF)并同时作用在网络的第5层。为了模型更好地捕捉特征之间的关联性,强化模型对重要信息的提取,接着引入二阶注意力机制(SOCA)并作用在第8层;最后为了进一步细节化模型宽高比的计算方法,引入了具有更多惩罚项的Focal‑EIoU损失函数来替换原始YOLOv5的CIoU损失函数,解决了模型面对宽高比例相同但宽高值不同的问题,提高了整个模型的检测精度。实验结果表明,相对于原始的YOLOv5s模型,本发明专利技术提出的改进YOLOv5‑WBJ模型在手语检测上的准确率、召回率、平均精度都有了显著的提升,这些改进让聋哑人的交流更加方便。

【技术实现步骤摘要】

本专利技术涉及一种手语识别方法,尤其涉及一种基于改进yolov5的复杂场景下手语识别方法。


技术介绍

1、 近年来,随着人工智能技术的蓬勃发展,图像检测技术也逐渐趋于成熟。目前,主要有两种目标检测算法:two stage和one stage。其中,two stage算法包括r-cnn、spp-net和r-fcn等,而one stage算法则包括yolo系列、ssd等。这两种算法的主要区别在于,twostage算法分为两个阶段,首先生成待检测物体的预选框,然后使用卷积神经网络进行物体检测,其特点是检测精度高,但是在深层次网络中检测速度慢;而one stage算法是直接将候选区域划分和物体检测两个阶段合二为一,在网络中直接提取特征,以更快的速度预测物体的分类和位置,从而能够学习到更好的物体泛化特征。

2、图像识别技术的日益成熟,近年来研究者们将深度学习应用于手语识别,与传统的手语识别不同的是,深度学习避免了繁琐的前期预处理。卷积神经网络是深度学习中应用较广泛的方法之一,具有鲁棒性强、复杂度低等优点。大量的仿真实验证明了该识别方法的识别效果很好,相较本文档来自技高网...

【技术保护点】

1.一种基于改进YOLOv5s的手语交互动作复杂场景识别检测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于改进YOLOv5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤1中,使用的是美国标准的公开手语数据集ASL AlphabetDataset,该数据集有26种,每种手语类别500张,总共13000张。

3.根据权利要求1所述的一种基于改进YOLOv5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤2中,手语数据集按照9:1划分训练集、测试集,故训练集11700张、测试集1300张;其中包括对得到的手语特征数据集图片img...

【技术特征摘要】

1.一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤1中,使用的是美国标准的公开手语数据集asl alphabetdataset,该数据集有26种,每种手语类别500张,总共13000张。

3.根据权利要求1所述的一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤2中,手语数据集按照9:1划分训练集、测试集,故训练集11700张、测试集1300张;其中包括对得到的手语特征数据集图片imges和数据集相对应标注好的labels标签文件划分。

4.根据权利要求1所述的一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤3中,将处理好的数据集,在原始yolov5s模型中训练,获取yolov5s的网络模型的权重参数数据。

5.根据权利要求1所述的一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤4中,本发明是基于对原始yolov5模型检测算法的网络进行改进;首先是骨干网络的改进,先引入改进的快速金字塔池化simsppf模块替换掉原yolov5中的骨干网络末端的金字塔池化块(sppf)并同时作用在网络的第5层,为了模型更好地捕捉特征之间的关联性,强化网络对重要信息的提取,接着引入二阶注意力机制(soca)并作用在第8层得到;其次是输出端损失函数的改进,为了进一步细节化了模型宽高比的计算方法,引入了具有更多惩罚项的focal-eiou 损失函数来替换原始yolov5的ciou损失函数。

6.根据权利要求5所述的一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于:所述的改进快速金字塔池化simsppf中,simsppf继续沿用yolov5s 中的快速金字塔池化(spatial pyramid pooling-fast,sppf)的结构,只是在cb...

【专利技术属性】
技术研发人员:王柄竣王玫林艳
申请(专利权)人:桂林理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1