基于深度学习的手势识别的多标签图像预处理方法技术

技术编号:19593770 阅读:32 留言:0更新日期:2018-11-28 05:00
本发明专利技术公开了一种基于深度学习的手势识别的多标签图像预处理方法。本发明专利技术步骤如下:1.获取已标记的多个特征点的坐标;2.在坐标中选出图像平面坐标系中x的最大和最小值,y的最大和最小值,确认坐标点A(xmin,ymin)和坐标点B(xmax,ymax);3.利用坐标A和B定位目标在图像中标签有效的方形区域P,同时在区域P边缘的坐标点应按规则留有余量,从而得到拓展后的方形区域P1,并对区域P1的长和宽更新;4.比较区域P1的长和宽从而得到一个新的方形区域P2;5.计算裁剪图中特征点的坐标,作为裁剪图的标签。本发明专利技术在原图像中裁剪出包含目标的正方形图像,尽可能少的添加通道,减少背景冗余度,保留目标特征。

【技术实现步骤摘要】
基于深度学习的手势识别的多标签图像预处理方法
本专利技术涉及基于深度学习的手势识别的图像预处理方法,适用于被识别目标有复杂的背景且有多个标签为二维坐标的特征点。
技术介绍
为了使神经网络的损失值更好更快的收敛,得到优秀识别率的模型,被训练的三维图像在输入网络前均会进行一系列预处理。目前,无论科研人员使用深度学习进行分类任务还是回归任务,都会把数据集原始图像的长宽直接缩放到同等大小,或者为了保证原图像长宽比例不变,在短的一侧添加0通道,使长宽一致,这样为尺度归一化。但是这样做的后果是,前者压缩了原图像的长宽比例导致图像中被检测的目标物体发生变形,损失了纹理特征,使准确率下降;后者虽然保留了纹理特征,但是会添加许多相同像素值的通道,这不属于图像中的信息,增加了图像的冗余度,所以同样会对准确率造成很大的影响。同时在目标在图像中所占的比例较小,其背景也很复杂的情况下,图片中无用的信息太多,不利于神经网络提取目标特征,背景的冗余和噪声较多,神经网络会在训练时不容易收敛,训练时间较长,对服务器GPU造成负担,且模型准确率也会受到影响。
技术实现思路
本专利技术主要解决的技术问题是在基于深度学习的手势识别图像预处理过程中,减少目标背景的冗余度,同时在原图像长宽比例不变并添加通道时更多的保留目标的特征。为了实现上述目的,本专利技术采用的技术方案如下:步骤1.获取已标记的多个特征点的坐标点(x1,y1),(x2,y2)...(x21,y21),所述的多个特征点的坐标点也是网络学习时的标签。步骤2.在坐标点中分别选出图像平面坐标系中x的最大值xmax和最小值xmin,y的最大值ymax和最小值ymin,确认坐标点A(xmin,ymin)和坐标点B(xmax,ymax);Xmax=max[X1,X2...x21];Xmin=min[X1,X2...X21];ymax=max[y1,y2...y21];ymin=min[y1,y2...y21];步骤3.利用坐标点A(xmin,ymin)和坐标点B(xmax,ymax)定位目标在图像P0中标签有效的方形区域P,其长为L,宽为W。同时,在方形区域P边缘的坐标点应按规则留有余量,使其落在方形区域P内,得到拓展后的方形区域P1,然后对方形区域P1的长和宽更新,具体如下:方形区域P1的长L1更新为L1=L+2×L×K,宽W1更新为W1=W+2×W×K,其中K=0.01;步骤4.比较方形区域P1的长L1和宽W1,若长L1大于宽W1,则对宽W1进行扩展,令△=L1-W1,则以区域P1的W1/2为对称轴,在L1上向两边均匀扩展△/2,直至长L1和宽W1的长度相等,从而得到一个新的方形区域P2;若新的方形区域P2的长为L2,宽为W2,其无法达到长宽一致,则应使宽W2的长度无限接近长L2,即使得△最小,得到方形区域P3;然后将获得的方形区域P2或方形区域P3裁剪下来,获得裁剪图,将剩下的背景区域分别计算每一维的像素平均值M。步骤5.按照原图像与裁剪图的坐标系原点的相对位置,计算裁剪图中特征点的坐标,作为裁剪图的标签。若裁剪图的尺寸为方形区域P3,则在宽W2所在的边添加通道,使L2与W2相等,通道的像素值为剩余背景每一维的像素的平均值M。本专利技术的有益效果是:目标在图像中所占的比例增大,除去了图片中无用的信息,减少了图像的复杂度,在不损失特征的情况下完成尺度归一化,神经网络更加容易提取目标特征。保留了目标的纹理特征,添加的通道数减少,没有添加外来的信息,这样可以使网络训练容易收敛,且准确率提高。如果将上述区域P2或P3进行了旋转操作,根据旋转的特征点坐标,则可再次对旋转图片进行上述操作,除去图片四角旋转留下的多余通道。附图说明图1为图像P0示意图;图2为区域P示意图;图3为区域P1示意图;图4为区域P2示意图;图5为区域P3示意图,其中,黑色区域为所添加的通道;具体实施方式下面结合附图对本专利技术作进一步说明。如图1-5所示,为了实现上述目的,本专利技术采用的技术方案如下:步骤1.获取已标记的多个特征点的坐标点(x1,y1),(x2,y2)...(x21,y21)作什么?所述的多个特征点的坐标点也是网络学习时的标签。步骤2.在坐标点中分别选出图像平面坐标系中x的最大值xmax和最小值xmin,y的最大值ymax和最小值ymin,确认坐标点A(xmin,ymin)和坐标点B(xmax,ymax);Xmax=max[X1,X2...X21];Xmin=min[X1,X2...X21];ymax=max[y1,y2...y21];ymin=min[y1,y2...y21];步骤3.如图1所示,利用坐标点A(xmin,ymin)和坐标点B(xmax,ymax)定位目标在图像P0中标签有效的方形区域P,其长为L,宽为W。同时,在方形区域P边缘的坐标点应按规则留有余量,使其落在方形区域P内,参看图2;得到拓展后的方形区域P1,如图3所示,然后对方形区域P1的长和宽更新,具体如下:方形区域P1的长L1更新为L1=L+2×L×K,宽W1更新为W1=W+2×W×K,其中K=0.01;步骤4.比较方形区域P1的长L1和宽W1,若长L1大于宽W1,则对宽W1进行扩展,令△=L1-W1,则以区域P1的W1/2为对称轴,在L1上向两边均匀扩展△/2,直至长L1和宽W1的长度相等,从而得到一个新的方形区域P2,参看图4;若新的方形区域P2的长为L2,宽为W2,其无法达到长宽一致,则应使宽W2的长度无限接近长L2,即使得△最小,得到方形区域P3,参看如5;然后将获得的方形区域P2或方形区域P3裁剪下来,获得裁剪图,将剩下的背景区域分别计算每一维的像素平均值M。步骤5.按照原图像与裁剪图的坐标系原点的相对位置,计算裁剪图中特征点的坐标,作为裁剪图的标签。若裁剪图的尺寸为方形区域P3,则在宽W2所在的边添加通道,使L2与W2相等,通道的像素值为剩余背景每一维的像素的平均值M。本文档来自技高网...

【技术保护点】
1.基于深度学习的手势识别的多标签图像预处理方法,其特征在于包括如下步骤:步骤1.获取已标记的多个特征点的坐标点(x1,y1),(x2,y2)...(x21,y21),所述的多个特征点的坐标点也是网络学习时的标签;步骤2.在坐标点中分别选出图像平面坐标系中x的最大值xmax和最小值xmin,y的最大值ymax和最小值ymin,确认坐标点A(xmin,ymin)和坐标点B(xmax,ymax);Xmax=max[X1,X2...X21];Xmin=min[X1,X2...X21];ymax=max[y1,y2...y21];ymin=min[y1,y2...y21];步骤3.利用坐标点A(xmin,ymin)和坐标点B(xmax,ymax)定位目标在图像P0中标签有效的方形区域P,其长为L,宽为W;同时,在方形区域P边缘的坐标点应按规则留有余量,使其落在方形区域P内,得到拓展后的方形区域P1,然后对方形区域P1的长和宽更新,具体如下:方形区域P1的长L1更新为L1=L+2×L×K,宽W1更新为W1=W+2×W×K,其中K=0.01;步骤4.比较方形区域P1的长L1和宽W1,若长L1大于宽W1,则对宽W1进行扩展,令△=L1‑W1,则以区域P1的W1/2为对称轴,在L1上向两边均匀扩展△/2,直至长L1和宽W1的长度相等,从而得到一个新的方形区域P2;若新的方形区域P2的长为L2,宽为W2,其无法达到长宽一致,则应使宽W2的长度无限接近长L2,即使得△最小,得到方形区域P3;然后将获得的方形区域P2或方形区域P3裁剪下来,获得裁剪图,将剩下的背景区域分别计算每一维的像素平均值M;步骤5.按照原图像与裁剪图的坐标系原点的相对位置,计算裁剪图中特征点的坐标,作为裁剪图的标签;若裁剪图的尺寸为方形区域P3,则在宽W2所在的边添加通道,使L2与W2相等,通道的像素值为剩余背景每一维的像素的平均值M。...

【技术特征摘要】
1.基于深度学习的手势识别的多标签图像预处理方法,其特征在于包括如下步骤:步骤1.获取已标记的多个特征点的坐标点(x1,y1),(x2,y2)...(x21,y21),所述的多个特征点的坐标点也是网络学习时的标签;步骤2.在坐标点中分别选出图像平面坐标系中x的最大值xmax和最小值xmin,y的最大值ymax和最小值ymin,确认坐标点A(xmin,ymin)和坐标点B(xmax,ymax);Xmax=max[X1,X2...X21];Xmin=min[X1,X2...X21];ymax=max[y1,y2...y21];ymin=min[y1,y2...y21];步骤3.利用坐标点A(xmin,ymin)和坐标点B(xmax,ymax)定位目标在图像P0中标签有效的方形区域P,其长为L,宽为W;同时,在方形区域P边缘的坐标点应按规则留有余量,使其落在方形区域P内,得到拓展后的方形区域P1,然后...

【专利技术属性】
技术研发人员:颜成钢吕晓泉张勇东
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1