当前位置: 首页 > 专利查询>湖南大学专利>正文

生成描述嵌入多模态行人重识别方法、装置及电子设备制造方法及图纸

技术编号:30521784 阅读:38 留言:0更新日期:2021-10-27 23:05
本发明专利技术提供一种生成描述嵌入多模态行人重识别方法、装置及电子设备。所述方法提供了一种基于三种模态以上的多模态行人重识别方法,能够将文本描述和素描图像的优势结合进行行人重识别,并基于生成对抗的方法减小描述特征与图像特征之间模态差距,使行人重识别的结果更加准确,提升行人重识别的准确率。提升行人重识别的准确率。提升行人重识别的准确率。

【技术实现步骤摘要】
生成描述嵌入多模态行人重识别方法、装置及电子设备


[0001]本专利技术涉及计算机视觉
,尤其涉及一种生成描述嵌入多模态行人重识别方法、装置及电子设备。

技术介绍

[0002]随着智能视频监控设备的蓬勃发展及其在刑事侦查中的广泛应用,如何从大量的跨摄像头视频中快速、准确地进行行人重识别一直是学术界和产业界的一个关键研究问题。行人重识别可以大大加快视频分析的速度,提高工作人员的工作效率,保证结果的有效性,特别是在司法机关对犯罪嫌疑人的追踪中,具有重要的应用价值。没有它,人工查找视频数据中的嫌疑人不仅可能需要大量的时间和成本,消耗不必要的人力、物力和财力,还可能拖延案件的进展。
[0003]为了克服传统的行人重识别方法只适用于从不同摄像机的行人图像中检索同一个人的局限性,研究者们提出了跨模态的行人重识别任务来解决更复杂的场景。现有的跨模态行人重识别方法可分为基于低分辨率的、基于红外的、基于文本的和基于素描的行人重识别,该任务旨在从一个模态中检索另一个模态中的行人。但是,我们不能保证这种必要的查询图片始终可以获得,因此,文本描述和素描图像是较为常用的描述一个人的方式,这对于搜索犯罪嫌疑人等实际应用非常方便。
[0004]因此,描述性信息的应用就显得尤为重要,如何利用文本和素描两种模态信息的互补性来表达行人图像特征是非常有价值的。但是现有的方法大多数是单独考虑文本或者单独考虑素描的行人重识别,将两者结合来进行多模态行人重识别的方法很少被考虑。

技术实现思路

[0005]本专利技术的目的在于提供一种生成描述嵌入多模态行人重识别方法,能够利用文本描述和素描图像的优势结合进行行人重识别,提升行人重识别的准确率。
[0006]本专利技术的目的还在于提供一种生成描述嵌入多模态行人重识别装置,能够利用文本描述和素描图像的优势结合进行行人重识别,提升行人重识别的准确率。
[0007]本专利技术的目的还在于提供一种电子设备,能够利用文本描述和素描图像的优势结合进行行人重识别,提升行人重识别的准确率。
[0008]为实现上述目的,本专利技术提供一种生成描述嵌入多模态行人重识别方法,其特征在于,包括如下步骤:
[0009]步骤S1、获取训练样本集,所述训练样本集包括多个训练样本,每一个训练样本均包括:训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述;
[0010]步骤S2、分别提取所述训练图像、训练素描图像及训练文字描述的特征,得到训练图像特征、训练素描特征和训练文本特征;
[0011]步骤S3、融合所述训练素描特征和训练文本特征,得到训练融合描述特征;
[0012]步骤S4、将所述训练图像特征及训练融合描述特征输入到生成对抗对齐网络,生
成伪训练图像特征及伪训练融合描述特征;
[0013]步骤S5、用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;
[0014]步骤S6、获取待识别的图片集,所述待识别的图片集包括多个待识别行人,每一个待识别行人均包括:行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述;
[0015]步骤S7、分别提取所述行人图像、行人素描图像及行人文字描述的特征,得到行人图像特征、行人素描特征和行人文本特征;
[0016]步骤S8、融合所述行人素描特征和行人文本特征,得到行人融合描述特征;
[0017]步骤S9、将所述行人融合描述特征及行人图像特征输入训练后的行人重识别网络,得到行人重识别结果。
[0018]具体地,所述步骤S2包括:
[0019]通过图像特征提取器从训练图像及训练素描图像提取训练图像特征及训练素描特征;
[0020]对所述训练文字描述进行文本嵌入处理,得到文本特征;
[0021]所述步骤S7包括:
[0022]通过图像特征提取器从行人图像及行人素描图像提取行人图像特征及行人素描特征;
[0023]对所述行人文字描述进行文本嵌入处理,得到行人文本特征。
[0024]具体地,所述步骤S2及步骤S7中,所述图像特征提取器为2048维的残差神经网络。
[0025]具体地,所述步骤S2及步骤S7中,通过Doc2Vec的方法进行文本嵌入。
[0026]具体地,所述步骤S3中通过一注意力池化网络融合所述训练素描特征和训练文本特征,得到训练融合描述特征;
[0027]所述步骤S8中通过一注意力池化网络融合所述行人素描特征和行人文本特征,得到行人融合描述特征。
[0028]具体地,所述步骤S3及步骤8中注意力池化网络的公式为:
[0029][0030]其中,W1、W2、W3、W4为权重矩阵,α为分数矩阵,softmax为softmax函数,Z
t
为训练文本特征或行人文本特征,Z
s
为训练素描特征或行人素描特征,Z
d
为训练融合描述特征或行人融合描述特征。
[0031]具体地,所述步骤S4具体包括:
[0032]所述生成对抗对齐网络将训练融合描述特征分离成第一风格特征和第一内容特征,将训练图像特征分离成第二风格特征和第二内容特征;
[0033]用第一风格特征和第二内容特征生成伪训练图像特征,用第二风格特征和第一内容特征生成伪训练融合描述特征。
[0034]具体地,所述步骤S3和步骤S4之间还包括:对所述生成对抗对齐网络进行训练的步骤。
[0035]本专利技术还提供一种生成描述嵌入多模态行人重识别装置,包括:
[0036]获取单元,用于获取训练样本集,所述训练样本集包括多个训练样本,每一个训练样本均包括:训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述,以及获取待识别的图片集,所述待识别的图片集包括多个待识别行人,每一个待识别行人均包括:行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述;
[0037]提取单元,用于分别提取所述训练图像、训练素描图像及训练文字描述的特征,得到训练图像特征、训练素描特征和训练文本特征,以及分别提取所述行人图像、行人素描图像及行人文字描述的特征,得到行人图像特征、行人素描特征和行人文本特征;
[0038]融合单元,用于融合所述训练素描特征和训练文本特征,得到训练融合描述特征以及融合所述行人素描特征和行人文本特征,得到行人融合描述特征;
[0039]训练单元,用于用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;
[0040]行人重识别网络,用于在经过训练后接收所述行人融合描述特征及行人图像特征,得到行人重识别结果。
[0041]本专利技术提供一种电子设备,包括:
[0042]处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成描述嵌入多模态行人重识别方法,其特征在于,包括如下步骤:步骤S1、获取训练样本集,所述训练样本集包括多个训练样本,每一个训练样本均包括:训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述;步骤S2、分别提取所述训练图像、训练素描图像及训练文字描述的特征,得到训练图像特征、训练素描特征和训练文本特征;步骤S3、融合所述训练素描特征和训练文本特征,得到训练融合描述特征;步骤S4、将所述训练图像特征及训练融合描述特征输入到生成对抗对齐网络,生成伪训练图像特征及伪训练融合描述特征;步骤S5、用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;步骤S6、获取待识别的图片集,所述待识别的图片集包括多个待识别行人,每一个待识别行人均包括:行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述;步骤S7、分别提取所述行人图像、行人素描图像及行人文字描述的特征,得到行人图像特征、行人素描特征和行人文本特征;步骤S8、融合所述行人素描特征和行人文本特征,得到行人融合描述特征;步骤S9、将所述行人融合描述特征及行人图像特征输入训练后的行人重识别网络,得到行人重识别结果。2.如权利要求1所述的生成描述嵌入多模态行人重识别方法,其特征在于,所述步骤S2包括:通过图像特征提取器从训练图像及训练素描图像提取训练图像特征及训练素描特征;对所述训练文字描述进行文本嵌入处理,得到文本特征;所述步骤S7包括:通过图像特征提取器从行人图像及行人素描图像提取行人图像特征及行人素描特征;对所述行人文字描述进行文本嵌入处理,得到行人文本特征。3.如权利要求2所述的生成描述嵌入多模态行人重识别方法,其特征在于,所述步骤S2及步骤S7中,所述图像特征提取器为2048维的残差神经网络。4.如权利要求2所述的生成描述嵌入多模态行人重识别方法,其特征在于,所述步骤S2及步骤S7中,通过Doc2Vec的方法进行文本嵌入。5.如权利要求1所述的生成描述嵌入多模态行人重识别方法,其特征在于,所述步骤S3中通过一注意力池化网络融合所述训练素描特征和训练文本特征,得到训练融合描述特征;所述步骤S8中通过一注意力池化网络融合所述行人素描特征和行人文本特征,得到行人融合描述特征。6.如权利要求5所...

【专利技术属性】
技术研发人员:曹达翟亚静曾雅文陆邵飞
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1