一种基于自然语言描述的行人再识别方法技术

技术编号:23558740 阅读:37 留言:0更新日期:2020-03-25 04:12
本发明专利技术一种基于自然语言描述的行人再识别方法,涉及用于识别图形记录载体的处理,具体说是设计图像和自然语言描述双分支网络结构,图像分支网络结构采用MobileNet卷积网络进行图像特征提取,自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取,对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练,用训练好的网络在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别,克服了现有技术中所存在的特征提取部分文本特征表征性不高,损失函数部分训练网络困难训练时间长及训练过程要消耗大量内存的缺陷。

A method of pedestrian recognition based on natural language description

【技术实现步骤摘要】
一种基于自然语言描述的行人再识别方法
本专利技术的技术方案涉及用于识别图形记录载体的处理,具体地说是一种基于自然语言描述的行人再识别方法。
技术介绍
在监控视频中,因摄相机分辨率和拍摄角度的缘故,通常无法得到质量非常高的人脸图片。在人脸识别失效的情况下,行人再识别成为了一种十分重要的替代技术。借助于大量监控摄像头所摄的海量图像数据,行人再识别技术能够在一定范围内相对准确地实现行人再识别任务,甚至实时地发现和定位行人的当前位置,在公共安全领域中具有重要的意义。然而,在实际应用中,并不是所有需要进行行人再识别的任务中都有图像数据信息可供使用,但可能会有关于需要再识别行人特征的自然语言描述信息供使用,因此基于自然语言描述的行人再识别方法被人们提出并开始进行深入的研究。基于自然语言描述的行人再识别多采用双分支结构框架,分别是文本编码分支和图像特征提取分支,然后对提取的特征再进行跨模态匹配,实现行人的图文匹配。文献“CascadeAttentionNetworkforPersonSearch:BothImageandText-ImageSimil本文档来自技高网...

【技术保护点】
1.一种基于自然语言描述的行人再识别方法,其特征在于:设计图像和自然语言描述双分支网络结构,图像分支网络结构采用MobileNet卷积网络进行图像特征提取,自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取,对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练,得到的训练模型导入网络之后,在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别,具体步骤如下:/n第一步,设计图像分支网络结构:/n设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取;/n第二步,设计自然语言描述分支网络结构:/n设计自然语言描述分...

【技术特征摘要】
1.一种基于自然语言描述的行人再识别方法,其特征在于:设计图像和自然语言描述双分支网络结构,图像分支网络结构采用MobileNet卷积网络进行图像特征提取,自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取,对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练,得到的训练模型导入网络之后,在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别,具体步骤如下:
第一步,设计图像分支网络结构:
设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取;
第二步,设计自然语言描述分支网络结构:
设计自然语言描述分支网络结构是进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征;
第三步,构建堆叠损失函数L,进行网络训练:
上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的相似性度量部分进行构建跨模态损失函数Lit和构建单模态分类损失函数Lid,将跨模态损失函数Lit和单模态分类损失函数Lid合并构建堆叠损失函数L,再进行基于堆叠损失函数L的网络训练,得到训练模型;
第四步,实现基于堆叠损失函数的自然语言描述的行人再识别:
将上述第三步得到的训练模型导入网络之后,在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别;
至此,完成基于自然语言描述的行人再识别。


2.根据权利要求1所述一种基于自然语言描述的行人再识别方法,其特征在于:所述设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取,具体操作如下:
首先搭建如下的MobileNet卷积网络,MobileNet卷积网络由14层卷积层,1层池化层和1层全连接层组成,其中卷积层除了第一层为传统卷积层之外,其它卷积层均为深度可分离卷积层,由一层深度卷积层和一层点卷积层组成;
再进行图像特征提取,过程是,输入MobileNet卷积网络的图像大小为224×224像素,经过MobileNet卷积网络之后特征图大小变为输入图像大小的1/32,输入MobileNet卷积网络的图像经过第一层传统卷积层之后,卷积后的特征图大小为112×112像素,通道数为32;第二层深度可分离卷积层由参数为3×3×32的深度卷积层和参数为1×1×32×64的点卷积层组成,经过第二层卷积后的特征图大小为112×112像素,通道数为64;第三层深度可分离卷积层由参数为3×3×64的深度卷积层和参数为1×1×64×128的点卷积层组成,经过第三层卷积后的特征图大小为56×56像素,通道数为128;第四层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×128的点卷积层组成,经过第四层卷积后的特征图大小为56×56像素,通道数为128;第五层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×256的点卷积层组成,经过第五层卷积后的特征图大小为28×28像素,通道数为256;第六层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×256的点卷积层组成,经过第六层卷积后的特征图大小为28×28像素,通道数为256;第七层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×512的点卷积层组成,第八层至第十二层深度可分离卷积层均由参数为3×3×512深度卷积层和参数为1×1×512×512的点卷积层组成,经过第七层以及第八层至第十二层卷积后的特征图大小为14×14像素,通道数为512;第十三层深度可分离卷积层由参数为3×3×512的深度卷积层和参数为1×1×512×1024的点卷积层组成,经过第十三层卷积后的特征图大小为7×7像素,通道数为1024;第十四层深度可分离卷积层由参数为3×3×1024的深度卷积层和参数为1×1×1024×1024的点卷积层组成,经过第十四层卷积后的特征图大小为7×7像素,通道数为1024;再经过一层池化层,得到特征图大小为1×1像素,通道数为1024的图像特征;为保证图像特征和文本特征的维度相同,将得到的大小为1×1像素,通道数为1024的图像特征经过MobileNet卷积网络之外的一个1×1×1024×512卷积层处理,提取得到图像特征为I∈R1×1×512,由此完成采用MobileNet卷积网络进行图像特征提取的操作。


3.根据权利要求1所述一种基于自然语言描述的行人再识别方法,其特征在于:所述设计自然语言描述分支网络结构是进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征的具体操作如下:
第(2.1)步,文本预处理操作:
通过文本预处理操作得到文本的预处理特征矩阵E,方法是将文本中的句子划分为单词,对每个单词依据词汇表进行one-hot编码,句子中第i个单词的one-hot编码经过词嵌入矩阵得到一个d维特征向量edi,如公式(1)所示,



公式(1)中,n是句子长度,v是词汇表的长度,d是edi的维度,
长度为n的句子,其n×v维的one-hot编码经过v×d的词嵌入矩阵,由此完成文本预处理操作得到文本的预处理特征矩阵E;
第(2.2)步,BiLSTM网络提取文本特征:
将上述第(2.1)步得到的文本的预处理特征矩阵E,依据句子长度为n的文本序列顺序,依次通过BiLSTM网络的前向LSTM单元和反向LSTM单元,得到句子的隐藏状态矩阵H,隐藏状态矩阵H中任意时刻t的状态向量由前向隐藏状态和反向隐藏状态合并得到,如公式(2)所示,



公式(2)中,t为句子中第t个位置,t∈(1,n)为t的取值范围,
由此通过BiLSTM网络获取到文本特征;
第(2.3)步,截断式注意力机制再处理文本特征:
对软注意力机制添加阈值进行筛选,称为截断式注意力机制,截断式注意力机制由两层全连接层和一层Softmax层组成,
采用截断式注意力机制处理文本特征的具体操作是,将上述第(2.2)步得到的句子的时序状态矩阵H通过截断式注意力机制,得到一个和句子长度n相同维数的权重向量M,如公式(3)所示,
M=softmax(Wt2tanh(Wt1H+b1)+b2)(3),
公式(3)中,Wt1和b1为第一个全连接层的参数,Wt2和b2为第二个全连接层的参数,再通过对得到的权重向量M进行筛选,将权重小于阈值τ的权重向量忽略掉,而其他的权重向量保持不变,得到截断式注意力机制的权重向量Mnew,如公式(4)所示,



公式(4)中,x为权重向量M中第x个位置,Mx为权重向量M中第x个位置的权重,n为句子长度,将该截断式注意力机制的权重向量Mnew与上述第(2.2)步得到的隐藏状态矩阵H对应做乘积运算后再求和,得到最终的文本特征T,完...

【专利技术属性】
技术研发人员:于明霍昶伟师硕郝小可于洋阎刚朱叶刘依郭迎春
申请(专利权)人:河北工业大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1