当前位置: 首页 > 专利查询>天津大学专利>正文

基于多时态注意力模型的行人属性识别方法技术

技术编号:22565714 阅读:259 留言:0更新日期:2019-11-16 12:17
一种基于多时态注意力模型的行人属性识别方法,包括:获取图像特征和属性特征;构造文本监督特征,是将图像特征和属性特征的两种组合结果进行融合,并级联属性特征作为属性监督;构造多时态注意力机制,是利用两个时刻的隐藏层向量构造注意力机制的对齐模型,然后共同对图像特征进行权重优化;将文本监督特征和上下文向量作为长短期记忆模型的额外输入,获得含有行人属性信息的隐藏层向量;获取行人属性识别概率;对行人属性识别概率进行优化。本发明专利技术能够快速且有效识别真实监控场景下的不同行人的属性,对其他深度学习领域,比如行人检索和行人重识别有重要的推动作用,此外对于建成平安城市和城市监控系统的完善也有很多积极作用。

Pedestrian attribute recognition method based on multitemporal attention model

A method of pedestrian attribute recognition based on multitemporal attention model includes: acquiring image feature and attribute feature; constructing text supervision feature, which combines the two results of image feature and attribute feature, and cascading attribute feature as attribute supervision; constructing multitemporal attention mechanism, which uses the hidden layer vector of two moments to construct attention mechanism Secondly, the paper optimizes the weight of the image features together; takes the text supervision feature and context vector as the extra input of the long-term memory model, obtains the hidden layer vector containing the pedestrian attribute information; obtains the pedestrian attribute recognition probability; optimizes the pedestrian attribute recognition probability. The invention can quickly and effectively identify the attributes of different pedestrians in the real monitoring scene, has an important role in promoting other deep learning fields, such as pedestrian retrieval and pedestrian recognition, and has many positive roles in building a safe city and improving the urban monitoring system.

【技术实现步骤摘要】
基于多时态注意力模型的行人属性识别方法
本专利技术涉及一种行人属性识别方法。特别是涉及一种基于多时态注意力模型的行人属性识别方法。
技术介绍
现代城市中,每时每刻都有数以百万计的监控摄像头收集着行人和交通等视频和图片信息,为了保障人民的生命财产和城市安全,需要对这些海量数据进行实时的分析,早期的监控系统需要人工筛选数据,耗费大量的人力物力。随着机器学习的发展,尤其是深度学习的兴起,愈发方便处理海量数据。行人属性识别任务旨在给定一张含有行人的图像时,能够预测中行人所具有的属性,比如性别、年龄、衣服类型等,对于监控领域处理海量行人图像和行人重识别等任务有重要的作用。在监控领域中,行人属性识别任务能够从监控视频得到的图像中甄别可能对人民生命财产造成威胁的人或物品。此外行人属性识别任务对建成智慧城市有重要的促进作用,因此行人属性识别有着非常重要的研究价值和现实意义。早期的行人属性识别任务利用人工提取的特征,并利用SVM分类器进行分类,该方法需要耗费相当高的人力物力,而且行人属性识别的性能也不能满足人们的要求,随着深度学习的兴起,利用卷积神经网络进行特征提取和循环神经网络进行属性识别,极大地促进了识别性能的提高。此外研究人员还提出了一种能够优化图像特征权重分配的注意力机制,能够让模型更多的关注与属性相关的图像特征,从而有效提升了属性识别的性能。但是,目前利用LSTM进行属性识别的方法中,往往只在初始状态时输入一次图像,之后每个时刻都只输入属性信息,这样避免了多次利用图像的噪声造成模型过拟合的问题。然而,这种方式也造成了属性和图像的分离,在训练过程中不能有效的相互映射;此外,传统的注意力模型,只是考虑当前属性的隐藏层状态,忽略了下一个属性的隐藏层对性能的影响,下一个属性的隐藏层携带着即将预测的信息,能够有效的引导模型去关注图像与下一个属性相关的特征位置,增加对应特征的权重,如果预测的属性不正确,将进一步减少即将分配的权重。达到进一步优化模型的效果;最后,以往的基于属性的权重的目标函数认为属性占总比少的就一定是识别性别比较差的,进而设计目标函数。目前存在着行人属性识别任务中特殊的情况,即一些占整体比例较少的属性,识别精度也比较高,相反,一些占整体比例较多的属性,识别精度却比较低。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够快速且有效的识别出不同行人属性的基于多时态注意力模型的行人属性识别方法。本专利技术所采用的技术方案是:一种基于多时态注意力模型的行人属性识别方法,包括如下步骤:1)获取图像特征和属性特征;2)构造文本监督特征,是将图像特征和属性特征的两种组合结果进行融合,并级联属性特征作为属性监督;3)构造多时态注意力机制,是利用两个时刻的隐藏层向量构造注意力机制的对齐模型,然后共同对图像特征进行权重优化;4)将文本监督特征和上下文向量作为长短期记忆模型的额外输入,获得含有行人属性信息的隐藏层向量;5)获取行人属性识别概率pt=softmax(ht-1);6)对行人属性识别概率pt进行优化。步骤1)中所述的获取图像特征,是将图像输入到卷积神经网络中获取图像特征V={v1,…vi,…vN}。步骤1)中所述的获取属性特征,是使用One-Hot的向量yt来表示属性特征,设定行人属性的特征有L个,即图像的属性特征Y=[y1,y2,…,yt,…,yL]。步骤2)中所述的将图像特征和属性特征的两种组合结果进行特征融合,是采用如下公式:mt=Φ(V⊙W1yt)+Ψ(V⊙W2yt)(1)式中,mt为图像和文本的融合特征,Ф和Ψ分别为线性整流函数和双曲正切函数,V为图像特征,为了利用属性信息,引入两个不同属性嵌入矩阵W1和W2与属性特征向量yt构成两个不同的词向量,t表示时刻。步骤2)中所述的级联属性特征作为属性监督,是利用属性嵌入矩阵W3构造一个词向量W3yt,然后将词向量W3yt与融合特征mt级联构成文本监督特征st,其中词向量W3yt起属性监督作用。步骤3)是通过如下公式进行:式中,和代表两个时刻解码端隐藏层向量和编码端图像特征的对齐模型,fatt为注意力函数,和表示两个时刻得到的权重分配系数,为解码端在t-1时刻的隐藏层向量,为解码端在t时刻的隐藏层向量,vi为图像特征向量;将权重分配系数和分别与图像特征进行相乘后融合,得到上下文向量zt,计算公式如下:式中,N为图像特征向量的个数。步骤4)是通过如下公式进行:式中,不同下标的W表示训练学习到的不同参数,ft表示遗忘门,it表示输入门,ot表示输出门,ct表示t时刻细胞状态,ct-1表示t-1时刻细胞状态,ht表示t时刻隐藏层,ht-1表示t-1时刻隐藏层,σ表示Sigmoid函数,st表示文本监督特征,zt表示上下文向量。步骤6)包括对不同时刻的行人属性识别概率pt根据数据集的属性顺序进行汇总,设定pm表示汇总后的第m个行人属性的识别概率,采用如下目标函数对行人属性识别概率pm进行优化:ωm=exp(-am)(9)式中,pm表示输出第m个属性的概率,am表示第m个属性在所有属性中的占比,ωm表示占比越多的属性,受关注程度越少,ωm(1-pm)表示如果第m个属性占比少,难以识别,则提高对该属性关注程度,L表示行人属性特征的个数;优化后的pm为行人属性识别的最佳结果。本专利技术的基于多时态注意力模型的行人属性识别方法,优势主要体现在:(1)有效性:通过在RAP和PETA两个行人属性识别数据集上进行实验,本专利技术的识别性能处于当下领先水平,能够快速且有效的识别出不同行人的属性。(2)新颖性:该专利技术首次在行人属性识别方向加入下一个属性的隐藏层信息,利用下一个属性的隐藏层携带的属性信息与编码端特征进行映射,能够有效优化编码端的特征分布。(3)实用性:该专利技术能够有效识别真实监控场景下的行人属性,对其他深度学习领域,比如行人检索和行人重识别有重要的推动作用,此外对于建成平安城市和城市监控系统的完善也有很多积极作用。附图说明图1是本专利技术基于多时态注意力模型的行人属性识别方法的示意图。具体实施方式下面结合实施例和附图对本专利技术的基于多时态注意力模型的行人属性识别方法做出详细说明。如图1所示,本专利技术的基于多时态注意力模型的行人属性识别方法,包括如下步骤:1)获取图像特征和属性特征;其中,所述的获取图像特征,是将图像输入到卷积神经网络(CNN)中获取图像特征V={v1,…vi,…vN},例如使用VGGNet,GoogleNet,ResNet等卷积神经网络模型提取图像特征,本专利技术使用ResNet-152网络对图像特征进行提取。所述的获取属性特征,是使用One-Hot的向量yt来表示属性特征,设定行人属性的特征有L个,即图像的属性特征Y=[y1,y2,本文档来自技高网
...

【技术保护点】
1.一种基于多时态注意力模型的行人属性识别方法,其特征在于,包括如下步骤:/n1)获取图像特征和属性特征;/n2)构造文本监督特征,是将图像特征和属性特征的两种组合结果进行融合,并级联属性特征作为属性监督;/n3)构造多时态注意力机制,是利用两个时刻的隐藏层向量构造注意力机制的对齐模型,然后共同对图像特征进行权重优化;/n4)将文本监督特征和上下文向量作为长短期记忆模型的额外输入,获得含有行人属性信息的隐藏层向量;/n5)获取行人属性识别概率p

【技术特征摘要】
1.一种基于多时态注意力模型的行人属性识别方法,其特征在于,包括如下步骤:
1)获取图像特征和属性特征;
2)构造文本监督特征,是将图像特征和属性特征的两种组合结果进行融合,并级联属性特征作为属性监督;
3)构造多时态注意力机制,是利用两个时刻的隐藏层向量构造注意力机制的对齐模型,然后共同对图像特征进行权重优化;
4)将文本监督特征和上下文向量作为长短期记忆模型的额外输入,获得含有行人属性信息的隐藏层向量;
5)获取行人属性识别概率pt=softmax(ht-1);
6)对行人属性识别概率pt进行优化。


2.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法,其特征在于,步骤1)中所述的获取图像特征,是将图像输入到卷积神经网络中获取图像特征V={v1,…vi,…vN}。


3.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法,其特征在于,步骤1)中所述的获取属性特征,是使用One-Hot的向量yt来表示属性特征,设定行人属性的特征有L个,即图像的属性特征Y=[y1,y2,…,yt,…,yL]。


4.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法,其特征在于,步骤2)中所述的将图像特征和属性特征的两种组合结果进行特征融合,是采用如下公式:
mt=Φ(V⊙W1yt)+Ψ(V⊙W2yt)(1)
式中,mt为图像和文本的融合特征,Φ和Ψ分别为线性整流函数和双曲正切函数,V为图像特征,为了利用属性信息,引入两个不同属性嵌入矩阵W1和W2与属性特征向量yt构成两个不同的词向量,t表示时刻。


5.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法,其特征在于,步骤2)中所述的级联属性特征作为属性监督,是利用属性嵌入矩阵W3构造一个词向量W3yt,然后将词向量W3yt与融合特征mt级联...

【专利技术属性】
技术研发人员:冀中贺二路
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1