一种视频下实时的行人衣着颜色识别方法技术

技术编号:34393417 阅读:14 留言:0更新日期:2022-08-03 21:24
本发明专利技术提供一种视频下实时的行人衣着颜色识别方法,属于计算机视觉领域和图像处理技术领域,本发明专利技术通过Yolo目标检测算法可以对行人及行人衣着进行快速提取。通过对图片进行随机序列化,将图片转化为元素序列,将图片中的结构信息及空间信息屏蔽,保留图片的色彩信息。根据RGB

【技术实现步骤摘要】
一种视频下实时的行人衣着颜色识别方法


[0001]本专利技术涉及计算机视觉领域和图像处理
,尤其涉及一种视频下实时的行人衣着颜色识别方法。

技术介绍

[0002]在计算机视觉涉及到的各个领域中,监控视频下的行人的精准识别尤为重要,而衣着颜色作为行人的一个重要的属性,是对行人进行精准化分析的一个关键要素。
[0003]而目前对行人衣着颜色识别的方法有以下问题:
[0004](1)一般通过目标检测算法或语义分割算法将行人及衣着从整体图片中截取出来。但语义分割算法是对图片中每个像素点进行分类因此运行速度极慢、在大部分机器上很难达到视频监控中实时截取的速度要求,而目标检测算法大部分使用传统的双阶段目标检测算法,如FAST

RCNN,FASTER

RCNN,这类算法虽然相较于语义分割算法速度上得到了提升,但在部分机器上仍然无法达到视频监控中实时截取的速度要求。
[0005](2)在将行人从图片中截取出来后,通常使用聚类算法进行主颜色提取,但聚类算法大部分只能部署运行在CPU,无法应用GPU算力进行运算,因此速度较慢。
[0006](3)在将行人的图片截取出来后,通常使用卷积神经网络进行颜色识别,但由于卷积神经网络对于图片的结构信息和空间信息较为敏感;随着网络加深,图片底层颜色信息损失较大,对于图片底层的颜色信息的学习理解能力较弱,故对于干扰项较多的衣着颜色识别的效果较差。

技术实现思路

[0007]为了解决以上技术问题,本专利技术提供了一种视频下实时的行人衣着颜色识别方法。该方法中的Yolo模型及Seq2One模型均可部署在GPU上运行且经过模型量化极大提高了模型的运行速度。
[0008]本专利技术的技术方案是:
[0009]一种视频下实时的行人衣着颜色识别方法,
[0010]截取图片再截取;通过RGB与HSV色彩空间转换构建颜色词典,以该词典为基础,使用随机函数叠加算法生成数据集;
[0011]图片序列化;设计构建Seq2One模型,使用随机函数叠加算法生成数据集进行训练,使用该模型对序列化图片进行颜色识别。
[0012]进一步的,
[0013]通过Yolo目标检测算法对行人及行人衣着进行提取;通过对图片进行随机序列化,将图片转化为元素序列,将图片中的结构信息及空间信息屏蔽,保留图片的色彩信息;
[0014]根据RGB

HSV色彩空间的转换,对16777216种RGB的值进行编码,形成颜色词典;根据颜色词典的映射关系,使用随机函数叠加算法,生成训练图片;构建 Seq2One模型,去除Seq2Seq模型中的注意力机制,降低解码器输出层神经元数量,减少模型参数量。
[0015]进一步的,
[0016]先对色彩通道V进行判断,后对色彩通道S进行判断,最后对色彩通道H进行判断;通过以上判断顺序可以准确的对每个RGB值进行编码,构成16777216种 K

V键值对形式的颜色词典;
[0017]该颜色词典的构建为使用随机函数叠加算法生成数据集构建查表指标。
[0018]进一步的,
[0019]图片序列化是将二维图片转换为一维序列,将原图片中的每个RGB值作为一个独立的单元转换为一维数组中的每个元素。
[0020]进一步的,
[0021]构建基于去注意力机制的Seq2One模型,该模型由N vs N的编码器以及N vs 1的解码器组成,以及在头部设计嵌入firstFlatten图片前处理层,此外在编码器前添加Fuse算子。
[0022]进一步的,
[0023]训练YoloV5目标检测模型:
[0024](1)使用人体检测数据集训练YoloV5人体检测模型,选用YoloV5s网络结构;
[0025](2)使用人体衣着数据集训练YoloV5衣着检测模型,选用YoloV5s网络结构;训练得到的YoloV5衣着检测模型可以检测上衣、下衣、连衣裙三种衣着,其中上衣包括各种长袖、短袖、外套、大衣,下衣包括各种短裤,长裤,短裙,长裙;
[0026]对视频流传输过来的每帧的图片先经过YoloV5人体检测模型检测视频中的人体,之后使用YoloV5衣着检测模型对检测到的人体进行衣着检测,检测得到上衣、下衣或连衣裙,对检测得到的衣着进行截取得到衣着图片。
[0027]对YoloV5模型和Seq2One模型进行8

bit量化,使得该模型在大部分机器下可以实现视频监控下实时的人体及衣着的检测。
[0028]本专利技术的有益效果是
[0029]1、本专利技术通过RGB

HSV色彩空间的转换构建颜色词典,以该词典为参考表,通过随机函数叠加方法生成数据集。通过该方法生成的数据集数据量极大,数据集整体泛化性强,鲁邦性强。该方法生成数据集方式快捷,成本低,速度快。
[0030]2、对图片进行序列化处理,该方式屏蔽了图片的空间信息与结构信息,保留下颜色信息。对图片进行序列化处理更有利于Seq2One模型专注学习图片颜色特征,提高模型训练速度,由于空间信息与结构信息的屏蔽,模型使用较少的参数量即可拟合数据集。
[0031]3、设计构建基于去注意力机制的Seq2One模型,该模型在Seq2Seq模型的基础上,考虑到RGB元素向量的独立性,去除了注意力机制,既防止网络对部分特殊向量的关注而对整体的理解产生偏差;又减少了模型的参数量,提高了模型的性能。同时将前处理程序集成在网络输入层,以firstFlatten层实现,将CPU进行的前处理过程放在GPU上进行,降低IO传输时间,提升访存宽带的有效利用,提高模型性能。在Seq2One模型的解码器模块使用N vs 1的RNN网络,由于全连接层的神经元个数降为1个,大大减少了模型的参数量,提高了模型的性能。
[0032]4、相较于传统的聚类算法及卷积神经网络识别颜色的方法,使用生成1000万张图片训练的Seq2One模型泛化能力更强,鲁棒性更强,能够抵抗干扰色及背景色的影响识别出
衣着主色,准确度得到了提升。同时Seq2One模型相较于Seq2Seq 模型的改进降低了模型的参数,提高了模型的性能,
[0033]5、本专利技术所述方法使用YoloV5目标检测算法(单阶段目标检测算法),相较于双阶段目标检测算法与语义分割算法,该算法极大的提高了检测速度。同时对 YoloV5目标检测算法截取的图片进行再截取,减小了背景干扰,提高了检测精度。
[0034]6、通过对Seq2One模型及YoloV5模型的量化,模型运行速度得到了极大的提升,满足了在Nvidia

GPU或国产环境下实时进行行人衣着颜色识别的需求。
附图说明
[0035]图1是Yolo截取后图片再处理示意图;
[0036]图2是RGB转换HSV公式示意图;
[0037]图3是衣着颜色识别流程示意图;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频下实时的行人衣着颜色识别方法,其特征在于,截取图片再截取;通过RGB与HSV色彩空间转换构建颜色词典,以该词典为基础,使用随机函数叠加算法生成数据集;图片序列化;设计构建Seq2One模型,使用随机函数叠加算法生成数据集进行训练,使用该模型对序列化图片进行颜色识别。2.根据权利要求1所述的方法,其特征在于,通过Yolo目标检测算法对行人及行人衣着进行提取;通过对图片进行随机序列化,将图片转化为元素序列,将图片中的结构信息及空间信息屏蔽,保留图片的色彩信息。3.根据权利要求2所述的方法,其特征在于,根据RGB

HSV色彩空间的转换,对16777216种RGB的值进行编码,形成颜色词典;根据颜色词典的映射关系,使用随机函数叠加算法生成训练图片;构建Seq2One模型,去除Seq2Seq模型中的注意力机制,降低解码器输出层神经元数量,减少模型参数量。4.根据权利要求3所述的方法,其特征在于,先对色彩通道V进行判断,后对色彩通道S进行判断,最后对色彩通道H进行判断;通过以上判断顺序及判定逻辑可以准确的对每个RGB值进行编码,构成16777216种K

V键值对形式的颜色词典;该颜色词典的构建为使用随机函数叠加算法生成数据集构建查表指标。5.根据权利要求1所述的方法,...

【专利技术属性】
技术研发人员:梁翔宇李玉坤段京峰卢则兴
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1