基于隐式动态特征分配的行人属性识别系统及方法技术方案

技术编号:34138531 阅读:20 留言:0更新日期:2022-07-14 17:14
本发明专利技术公开了一种基于隐式动态特征分配的行人属性识别系统及方法,属于计算机视觉技术领域,其特征在于,包括如下步骤:S1、对输入的图片进行预处理;S2、采用改进的Transformer特征提取器提取图片特征,得到特征向量;S3、使用特征动态分配模块对特征向量进行动态分配;S4、使用行人属性识别网络对行人图片中的行人进行属性识别,并计算误差损失、准确率,进而帮助训练网络。本发明专利技术专注于将基于Transformer的特征提取器提取到的高维特征与行人属性动态匹配,让每个属性使用各自的特征进行二分类任务,使每个属性的分类任务相对独立,更好地提高识别效果。提高识别效果。提高识别效果。

【技术实现步骤摘要】
基于隐式动态特征分配的行人属性识别系统及方法


[0001]本专利技术属于计算机视觉
,特别是涉及一种基于隐式动态特征分配的行人属性识别系统及方法。

技术介绍

[0002]行人属性识别,是指利用计算机视觉等技术,将行人图片中人物的衣着服装、配饰、发型长度颜色等外观属性进行分类,属于多标签分类问题在实际应用中的一个分支。在道路监控场景下的疑犯追踪、寻人启事等实际需求中,行人属性识别起到了非常重要的作用及广泛的应用。行人属性识别也可辅以行人重识别、步态识别等技术,在各行各业发挥作用。在行人属性识别
中,大部分方法基于深度学习的卷积神经网络实现,例如,使用多层不同尺寸的卷积核搭建卷积神经网络,对输入图片进行特征提取,最终通过全连接层将提取的高级特征送入分类器,进行多分类识别;也有将最后一层的多标签多分类识别改为多个二分类识别,即将多分类问题转化为多个二分类问题,将每个属性单独分类后进行总结;还有将人体部位分成若干个躯干块,例如头部、上身、下身,对每个部位单独进行分类识别,得到更精准的结果。
[0003]现有的行人属性识别技术大多将提取到的高维特征直接用于属性分类,或是使用注意力机制使模型为不同的部位提取不同的特征,但这些方法并不能很好地将特征和行人各属性相匹配,没有针对每个属性分配更合适的高维特征。且目前行人属性识别技术大多使用卷积神经网络提取特征,但卷积神经网络在逐层采样的过程中容易丢失全局信息,在一些属性上不能得到很好的表现。

技术实现思路

[0004]技术目的
[0005]本专利技术提供一种基于隐式动态特征分配的行人属性识别系统及方法;专注于将基于Transformer的特征提取器提取到的高维特征与行人属性动态匹配,让每个属性使用各自的特征进行二分类任务,使每个属性的分类任务相对独立,更好地提高识别效果。
[0006]技术方案
[0007]本专利技术的第一目的是提供一种基于隐式动态特征分配的行人属性识别方法,执行如下步骤:
[0008]S1、对输入的图片进行预处理;
[0009]S2、采用改进的Transformer特征提取器提取图片特征,得到特征向量;
[0010]S3、使用特征动态分配模块对特征向量进行动态分配;
[0011]S4、使用行人属性识别网络对行人图片中的行人进行属性识别,并计算误差损失、准确率,进而帮助训练网络。
[0012]优选地,所述S1具体为:
[0013]S11、采集监控图片,使用目标检测算法进行行人检测和裁剪,得到仅包含行人的
图片作为数据集,并将数据集以7:3的比例划分为训练集和测试集;
[0014]S12、对图片进行筛选、标注标签,每个行人图片标注20

40个属性值;
[0015]S13、对行人图片进行预处理,包括尺度归一化、随机水平翻转、随机旋转、随机色彩偏离、随机抹除、随机噪声。
[0016]优选地,S2具体为:
[0017]S21、利用图片块嵌入结构,将训练集中待检测的行人图片切分为196个图片块,并将196个图片块按照由上至下由左至右的顺序进行排列,得到图片序列 I,表示为:
[0018]{p1,p2,

,p
196
}∈I
[0019]之后,在图片序列I的首部,加入一个3*16*16像素的分类令牌图片块,分类令牌图片块的内容为随机像素,记为p0,新得到的图片序列P表示为:
[0020]{p0,p1,p2,

,p
196
}∈P
[0021]之后,为图片序列P的每一个图片块添加一个表示位置信息的位置编码,位置编码的尺寸和图片块的尺寸相同,位置编码的初始化表示如下:
[0022][0023][0024]其中,pos代表图片块p在图片序列P中的位置,i表示位置编码的维度,i 的取值范围为:[0,...,d
model
/2],d
model
为网络的隐藏层深度,取值为512;
[0025]位置编码与图片序列P的元素相加后得到新的图片序列P

,表示为:
[0026]P

=[p0,p1,

,p
196
]+PE;
[0027]S22、使用编码器Φ,对处理后的图片序列P

进行特征提取,得到197*384 维的高维向量X,表示为:
[0028]X=φ(P

);
[0029]并将高维向量的第一维向量取出,作为代表整个图片的高维特征,称为分类特征向量(x
cls
),表示为:
[0030]x
cls
=X[0]。
[0031]优选地,S3具体为:
[0032]S31、使用k个分配块实现动态特征分配,每个分配块由两层全连接神经网络组成,其中隐藏层节点个数为384,表示如下:
[0033]x
mcls
=Linear(GELU(Linear(x
cls
)))
[0034]其中:Linear为全连接层,GELU为激活函数;
[0035]S32、k个分配块分别计算出k个x_{mcls},将其进行拼接(concat),得到最终表达图片特征的高维特征向量,表示如下:
[0036][0037]优选地,S4具体为:
[0038]S41、使用多个双层全连接神经网络,将得到的k个分类特征向量进行分类,表示为:
[0039]y=sigmoid(LeakyReLU(BN(FC(x
mls
))));
[0040]其中,sigmoid表示最终实现分类的激活函数,其作用为将特征向量进行二分类,
得到是或不是的预测结果,LeakyReLU激活函数的作用为使神经网络非线性化,增强线性网络的表达能力,BN操作通过归一化的方式,将每层神经网络输入值的分布归一到均值为0方差为1的标准正态分布分布,加快网络收敛速度、控制梯度爆炸和梯度消失,减轻过拟合;FC为两层全连接神经网络;
[0041]S42、根据预测值y
i
和真值计算出单次训练中每个样本的损失函数L,使用加权的二分类交叉熵损失函数,利用得到的损失函数计算梯度,训练网络,损失函数的计算如下:
[0042][0043]其中:N表示样本个数,M表示样本的属性个数,w
l
=exp(

p/θ2)表示第l 个属性的权重,p表示训练数据集中正样本占全部样本的比例,θ为调节参数。
[0044]本专利技术的第二目的是提供一种基于隐式动态特征分配的行人属性识别系统,至少包括:
[0045]图片预处理模块,对输入的图片进行预处理;
[0046]特征提取模块,采用改进的Transformer特征提取器提取图片特征,得到特征向量;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于隐式动态特征分配的行人属性识别方法,其特征在于,包括如下步骤:S1、对输入的图片进行预处理;S2、采用改进的Transformer特征提取器提取图片特征,得到特征向量;S3、使用特征动态分配模块对特征向量进行动态分配;S4、使用行人属性识别网络对行人图片中的行人进行属性识别,并计算误差损失、准确率,进而帮助训练网络。2.根据权利要求1所述的基于隐式动态特征分配的行人属性识别方法,其特征在于,所述S1具体为:S11、采集监控图片,使用目标检测算法进行行人检测和裁剪,得到仅包含行人的图片作为数据集,并将数据集以7:3的比例划分为训练集和测试集;S12、对图片进行筛选、标注标签,每个行人图片标注20

40个属性值;S13、对行人图片进行预处理,包括尺度归一化、随机水平翻转、随机旋转、随机色彩偏离、随机抹除、随机噪声。3.根据权利要求2所述的基于隐式动态特征分配的行人属性识别方法,其特征在于,S2具体为:S21、利用图片块嵌入结构,将训练集中待检测的行人图片切分为196个图片块,并将196个图片块按照由上至下由左至右的顺序进行排列,得到图片序列I,表示为:{p1,p2,

,p
196
}∈I之后,在图片序列I的首部,加入一个3*16*16像素的分类令牌图片块,分类令牌图片块的内容为随机像素,记为p0,新得到的图片序列P表示为:{p0,p1,p2,

,p
196
}∈P之后,为图片序列P的每一个图片块添加一个表示位置信息的位置编码,位置编码的尺寸和图片块的尺寸相同,位置编码的初始化表示如下:寸和图片块的尺寸相同,位置编码的初始化表示如下:其中,pos代表图片块p在图片序列P中的位置,i表示位置编码的维度,i的取值范围为:[0,...,d
model
/2),d
model
为网络的隐藏层深度,取值为512;位置编码与图片序列P的元素相加后得到新的图片序列p

,表示为:P

=[p0,p1,

,p
196
]+PE;S22、使用编码器φ,对处理后的图片序列P

进行特征提取,得到197*384维的高维向量X,表示为:X=φ(P

);并将高维向量的第一维向量取出,作为代表整个图片的高维特征,称为分类特征向量(x
cls
),表示为:x
cls
=X[0]。4.根据权利要求1所述的基于隐式动态特征分配的行人属性识别方法,其特征在于,S3具体为:S31、使用k个分配块实现动态特征分配,每个分配块由两层全连接神经网络组成,其中
隐藏层节点个数为384,表示如下:x
mcls
=Linear(gELU(Linear(x
cls
)))其中:Linear为全连接层,CELU为激活函数;S32、k个分配块分别计算出k个x_{mcls},将其进行拼接(concat),得到最终表达图片特征的高维特征向量,表示如下:5.根据权利要求1所述的基于隐式动态特征分配的行人属性识别方法,其特征在于,S4具体为:S41、使用多个双层全连接神经网络,将得到的k个分类特征向量进行分类,表示为:y=sigmoid(LeakyReLU(BN(FC(x
mls
))));其中,sigmoid表示最终实现分类的激活函数,其作用为将特征向量进行二分类,得到是或不是的预测结果,LeakyReLU激活函数的作用为使神经网络非线性化,增强线性网络的表达能力,BN操作通过归一化的方式,将每层神经网络输入值的分布归一到均值为0方差为1的标准正态分布分布,加快网络收敛速度、控制梯度爆炸和梯度消失,减轻过拟合;FC为两层全连接神经网络;S42、根据预测值y
i
和真值计算出单次训练中每个样本的损失函数L,使用加权的二分类交叉熵损失函数,利用得到的损失函数计算梯度,训练网络,损失函数的计算如下:其中:N表示样本个数,M表示样本的属性个数,w
l
=exp(

p/θ2)表示第l个属性的权重,p表示训练数据集中正样本占全部样本的比例,θ为调节参数。6....

【专利技术属性】
技术研发人员:刘才华郭嘉贤冯霞崔园园陈怡钒
申请(专利权)人:中国民航大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1