基于改进的yolov5网络与单目视觉的空中手写文本采集方法技术

技术编号:39166053 阅读:13 留言:0更新日期:2023-10-23 15:04
本发明专利技术涉及智能人机交互技术领域,具体涉及一种基于改进的yolov5网络与单目视觉的空中手写文本采集方法,方法包括:构建初始指尖数据集并进行预处理获取目标指尖数据集,基于高效金字塔分割注意力模块EPSA以及加权双向特征金字塔网络BiFPN对yolov5网络进行改进,获取改进的yolov5网络,将目标指尖数据集的训练集输入改进的yolov5网络获取指尖检测模型,基于单目摄像头获取空中手写文本的实时二维视频图像并输入指尖检测模型,基于坐标系虚拟滑动技术,形成空中手写文本,解决了现有技术中因3D传感器较大,价格昂贵,导致普适性不足、因对WIFI环境要求较为严格,导致局限性较大以及因指尖属于小目标,导致yolov5网络对指尖进行检测时存在检测准确率低、漏检率高的技术问题。题。题。

【技术实现步骤摘要】
基于改进的yolov5网络与单目视觉的空中手写文本采集方法


[0001]本专利技术涉及智能人机交互
,尤其是一种基于改进的yolov5网络与单目视觉的空中手写文本采集方法。

技术介绍

[0002]文字作为信息的主要载体之一,在人机交互领域中占据非常重要的地位,空中手写交互方法作为一种新型的人机交互方法,因为其书写方式更加自然、人性化,可以让用户进行非接触式的人机交互,受限性较小,给用户提供了一种更加舒适自由的体验感,而空中手写交互方法其中一方面,就是空中手写文本的采集。
[0003]目前的空中手写文本的采集还存在着一些问题,一方面,目前空中手写文本的采集中对手指指尖的识别主要是基于yolov5网络对指尖进行检测与定位,但由于指尖属于小目标,yolov5网络在对指尖进行检测时,存在检测准确率低以及漏检率高的技术问题;另一方面,空中手写文本的采集主要基于具备深度信息的3D传感器(例如Leap Motion、Kinect等)、WIFI信号来实现,但是基于具备深度信息的3D传感器对空中手写文本的采集,因为3D传感器体积大,而且价格昂贵,导致该方法普适性不足,而基于WIFI信号对空中手写文本的采集对WIFI环境要求较为严格,导致该方法的局限性较大。

技术实现思路

[0004]本专利技术的目的在于提供一种基于改进的yolov5网络与单目视觉的空中手写文本采集方法,用于解决现有技术中因为3D传感器体积大,而且价格昂贵,导致普适性不足、因对WIFI环境要求较为严格,导致局限性较大以及因指尖属于小目标,导致yolov5网络对指尖进行检测时存在检测准确率低、漏检率高的技术问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:
[0006]一种基于改进的yolov5网络与单目视觉的空中手写文本采集方法,所述方法包括以下步骤:
[0007]获取若干包含手指指尖的指尖图片,基于若干指尖图片,构建初始指尖数据集;
[0008]对初始指尖数据集进行预处理,获取目标指尖数据集,并将目标指尖数据集按比例划分为训练集和测试集;
[0009]基于高效金字塔分割注意力模块EPSA以及加权双向特征金字塔网络BiFPN对yolov5网络进行改进,获取改进的yolov5网络,其中,改进点在于:将C3模块中的残差模块bottleneck替换为高效金字塔分割注意力模块EPSA,获取C3EPSA模块,将yolov5网络中骨干网络与颈部网络中最深层次的C3模块替换为C3EPSA模块,以增强yolov5网络的特征提取能力,将yolov5网络中的路径聚合网络PANet替换为加权双向特征金字塔网络BiFPN,以更好地融合骨干网络获得的不同层次的特征图;
[0010]将训练集输入至改进的yolov5网络进行训练并输出预测值,利用损失函数计算损失值,当损失值停止下降时,获取指尖检测模型;
[0011]基于单目摄像头对指尖移动的轨迹进行采集,获取空中手写文本的实时二维视频图像,将每一帧空中手写文本的实时二维视频图像依次输入指尖检测模型获取若干包含指尖的目标框;
[0012]基于若干包含指尖的目标框的信息以及坐标系虚拟滑动技术,获取每一帧空中手写文本的实时二维视频图像的指尖坐标组成的指尖坐标序列,连接指尖坐标序列中的每一指尖坐标,形成空中手写文本。
[0013]在本专利技术提供的基于改进的yolov5网络与单目视觉的空中手写文本采集方法中,其中一部分所述指尖图片通过网络获取,另一部分所述指尖图片通过单目摄像头对不同的人的手指在不同背景、不同光照条件、不同角度以及不同距离进行拍摄获取。
[0014]在本专利技术提供的基于改进的yolov5网络与单目视觉的空中手写文本采集方法中,所述对初始指尖数据集进行预处理,获取目标指尖数据集,并将目标指尖数据集按比例划分为训练集和测试集,包括以下步骤:
[0015]利用目标检测数据集标注工具lableimg对初始指尖数据集内的若干指尖图片进行标注,用矩形框标注图片中手指指尖的位置;
[0016]基于马赛克拼接、仿射变换以及分割填充数据增强方法对完成标注后的初始指尖数据集进行扩充,获取目标指尖数据集;
[0017]将目标指尖数据集按照8:2的比例划分为训练集与测试集。
[0018]在本专利技术提供的基于改进的yolov5网络与单目视觉的空中手写文本采集方法中,所述高效金字塔分割注意力模块EPSA的具体操作方式为:
[0019]高效金字塔分割注意力模块EPSA的第一输入特征图X,经过一个Conv1
×
1模块,获取第二输入特征图X1;
[0020]针对第二输入特征图X1,按第二输入特征图X1的通道数将第二输入特征图X1平均切分为S个分割特征图X'1;
[0021]针对S个分割特征图X'1,利用S个不同卷积核的分组卷积提取第一输入特征图X的不同尺度的特征图F
i
,其中,i=0,1,...,S

1;
[0022]将不同尺度的特征图F
i
,输入至SEWeight模块进行学习,提取不同尺度的特征图F
i
的通道注意力,获取每个不同尺度的特征图F
i
的通道注意力向量Z
i
,其中,i=0,1,...,S

1;
[0023]利用softmax函数对每个不同尺度的特征图F
i
的通道注意力向量Z
i
进行权值重标定,获取权重向量Y
i
,其中,i=0,1,...,S

1;
[0024]将对应尺度的特征图F
i
与权重向量Y
i
进行哈达玛积运算,获取不同尺度的通道注意力加权之后的特征图O
i
,将S个特征图O
i
进行拼接融合,获取多尺度的通道注意力加权之后的特征图O,其中,i=0,1,...,S

1;
[0025]将多尺度的通道注意力加权之后的特征图O输入Conv1
×
1模块后与第一输入特征图X进行求和操作,获取拥有多尺度空间信息和跨通道注意力的输出特征图X


[0026]在本申请实施例提供的基于改进的yolov5网络与单目视觉的空中手写文本采集方法中,在利用训练集对改进的yolov5网络进行训练时,设置网络训练参数如下:
[0027]以yolov5s.pt作为初始网络权重,训练尺寸设置为640*640,训练迭代次数设置为50,批量大小batch

size设置为16,初始学习率为0.01。
[0028]在本专利技术提供的基于改进的yolov5网络与单目视觉的空中手写文本采集方法中,
所述损失函数计算包括矩形框损失计算、置信度损失计算以及分类损失计算;
[0029]矩形框损失计算利用CIoU损失函数对矩形框损失进行计算,计算公式如下:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进的yolov5网络与单目视觉的空中手写文本采集方法,其特征在于,所述方法包括以下步骤:获取若干包含手指指尖的指尖图片,基于若干指尖图片,构建初始指尖数据集;对初始指尖数据集进行预处理,获取目标指尖数据集,并将目标指尖数据集按比例划分为训练集和测试集;基于高效金字塔分割注意力模块EPSA以及加权双向特征金字塔网络BiFPN对yolov5网络进行改进,获取改进的yolov5网络,其中,改进点在于:将C3模块中的残差模块bottleneck替换为高效金字塔分割注意力模块EPSA,获取C3EPSA模块,将yolov5网络中骨干网络与颈部网络中最深层次的C3模块替换为C3EPSA模块,以增强yolov5网络的特征提取能力,将yolov5网络中的路径聚合网络PANet替换为加权双向特征金字塔网络BiFPN,以更好地融合骨干网络获得的不同层次的特征图;将训练集输入至改进的yolov5网络进行训练并输出预测值,利用损失函数计算损失值,当损失值停止下降时,获取指尖检测模型;基于单目摄像头对指尖移动的轨迹进行采集,获取空中手写文本的实时二维视频图像,将每一帧空中手写文本的实时二维视频图像依次输入指尖检测模型获取若干包含指尖的目标框;基于若干包含指尖的目标框的信息以及坐标系虚拟滑动技术,获取每一帧空中手写文本的实时二维视频图像的指尖坐标组成的指尖坐标序列,连接指尖坐标序列中的每一指尖坐标,形成空中手写文本。2.如权利要求1所述的基于改进的yolov5网络与单目视觉的空中手写文本采集方法,其特征在于,其中一部分所述指尖图片通过网络获取,另一部分所述指尖图片通过单目摄像头对不同的人的手指在不同背景、不同光照条件、不同角度以及不同距离进行拍摄获取。3.如权利要求1所述的基于改进的yolov5网络与单目视觉的空中手写文本采集方法,其特征在于,所述对初始指尖数据集进行预处理,获取目标指尖数据集,并将目标指尖数据集按比例划分为训练集和测试集,包括以下步骤:利用目标检测数据集标注工具lableimg对初始指尖数据集内的若干指尖图片进行标注,用矩形框标注图片中手指指尖的位置;基于马赛克拼接、仿射变换以及分割填充数据增强方法对完成标注后的初始指尖数据集进行扩充,获取目标指尖数据集;将目标指尖数据集按照8:2的比例划分为训练集与测试集。4.如权利要求1所述的基于改进的yolov5网络与单目视觉的空中手写文本采集方法,其特征在于,所述高效金字塔分割注意力模块EPSA的具体操作方式为:高效金字塔分割注意力模块EPSA的第一输入特征图X,经过一个Conv1
×
1模块,获取第二输入特征图X1;针对第二输入特征图X1,按第二输入特征图X1的通道数将第二输入特征图X1平均切分为S个分割特征图X'1;针对S个分割特征图X'1,利用S个不同卷积核的分组卷积提取第一输入特征图X的不同尺度的特征图F
i
,其中,i=0,1,...,S

1;将不同尺度的特征图F
i
,输入至SEWeight模块进行学习,提取不同尺度的特征图F
i
的通
道注意力,获取每个不同尺度的特征图F
i
的通道注意力向量Z
i
,其中,i=0,1,...,S

1;利用softmax函数对每个不同尺度的特征图F
i
的通道注意力向量Z
i
进行权值重标定,获取权重向量Y
i
,其中,i=0,1,...,S

1;将对应尺度的特征图F
i
与权重向量Y
i
进行哈达玛积运算,获取不同尺度的通道注意力加权之后的特征图O
i
,将S个特征图O
i
进行拼接融合,获取多尺度的通道注意力加权之后的特征图O,其中,i=0,1,...,S

1;将多尺度的通道注意力加权之后的特征图O输入Conv1
×
1模块后与第一输入特征图X进行求和操作,获取拥有多尺度空间信息和跨通道注意力的输出特征图X'。5.如权利要求1所述的基于改进的yolov5网络与单目视觉的空中手写文本采集方法,其...

【专利技术属性】
技术研发人员:屈喜文叶明红黄俊
申请(专利权)人:安徽工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1