【技术实现步骤摘要】
本专利技术涉及一种手语识别方法,尤其涉及一种基于改进yolov5的复杂场景下手语识别方法。
技术介绍
1、 近年来,随着人工智能技术的蓬勃发展,图像检测技术也逐渐趋于成熟。目前,主要有两种目标检测算法:two stage和one stage。其中,two stage算法包括r-cnn、spp-net和r-fcn等,而one stage算法则包括yolo系列、ssd等。这两种算法的主要区别在于,twostage算法分为两个阶段,首先生成待检测物体的预选框,然后使用卷积神经网络进行物体检测,其特点是检测精度高,但是在深层次网络中检测速度慢;而one stage算法是直接将候选区域划分和物体检测两个阶段合二为一,在网络中直接提取特征,以更快的速度预测物体的分类和位置,从而能够学习到更好的物体泛化特征。
2、图像识别技术的日益成熟,近年来研究者们将深度学习应用于手语识别,与传统的手语识别不同的是,深度学习避免了繁琐的前期预处理。卷积神经网络是深度学习中应用较广泛的方法之一,具有鲁棒性强、复杂度低等优点。大量的仿真实验证明了该识别方法
...【技术保护点】
1.一种基于改进YOLOv5s的手语交互动作复杂场景识别检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于改进YOLOv5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤1中,使用的是美国标准的公开手语数据集ASL AlphabetDataset,该数据集有26种,每种手语类别500张,总共13000张。
3.根据权利要求1所述的一种基于改进YOLOv5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤2中,手语数据集按照9:1划分训练集、测试集,故训练集11700张、测试集1300张;其中包括对得到的手语
...【技术特征摘要】
1.一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤1中,使用的是美国标准的公开手语数据集asl alphabetdataset,该数据集有26种,每种手语类别500张,总共13000张。
3.根据权利要求1所述的一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤2中,手语数据集按照9:1划分训练集、测试集,故训练集11700张、测试集1300张;其中包括对得到的手语特征数据集图片imges和数据集相对应标注好的labels标签文件划分。
4.根据权利要求1所述的一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤3中,将处理好的数据集,在原始yolov5s模型中训练,获取yolov5s的网络模型的权重参数数据。
5.根据权利要求1所述的一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于:所述步骤4中,本发明是基于对原始yolov5模型检测算法的网络进行改进;首先是骨干网络的改进,先引入改进的快速金字塔池化simsppf模块替换掉原yolov5中的骨干网络末端的金字塔池化块(sppf)并同时作用在网络的第5层,为了模型更好地捕捉特征之间的关联性,强化网络对重要信息的提取,接着引入二阶注意力机制(soca)并作用在第8层得到;其次是输出端损失函数的改进,为了进一步细节化了模型宽高比的计算方法,引入了具有更多惩罚项的focal-eiou 损失函数来替换原始yolov5的ciou损失函数。
6.根据权利要求5所述的一种基于改进yolov5s的手语交互动作复杂场景识别检测方法,其特征在于:所述的改进快速金字塔池化simsppf中,simsppf继续沿用yolov5s 中的快速金字塔池化(spatial pyramid pooling-fast,sppf)的结构,只是在cb...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。