当前位置: 首页 > 专利查询>贵州大学专利>正文

一种基于文本的行人检索自监督视觉表示学习系统及方法技术方案

技术编号:26172444 阅读:35 留言:0更新日期:2020-10-31 13:50
本发明专利技术提供了一种基于文本的行人检索自监督视觉表示学习系统及方法,其基本思想是通过构建辅助任务(性别判断和行人相似性回归)使得模型关注行人的细节信息,并且学习到具有鲁棒性的视觉特征,从而更加准确地检索目标人物的图片,其次,为了利用图片中的物体信息,本发明专利技术构建模型提取行人与物体之间的关系,并且对这些关系进行筛选和汇总。本发明专利技术通过以上设计,解决了现有的网络只关注图片和文本之间的相似度,却忽略了图片中行人的细节信息,以无法获取样本之间具体的相似度值,缺少监督信息的问题。

A text-based self supervised visual representation learning system and method for pedestrian retrieval

【技术实现步骤摘要】
一种基于文本的行人检索自监督视觉表示学习系统及方法
本专利技术属于视觉
,尤其涉及一种基于文本的行人检索自监督视觉表示学习系统及方法。
技术介绍
传统的基于文本的行人检索模型利用两部分网络分别提取图像和文本的特征描述,通常,三元损失函数被用来监督网络的学习。这种方法已经取得不错的效果,但是仍然存在以下两种缺点:首先,现有的网络只关注图片和文本之间的相似度,却忽略了图片中行人的细节信息,例如性别、服饰和动作等。这使得网络中学习到的视觉特征鲁棒性较低。其次,目前提出的方法中使用的损失函数利用的数据集标注为0或1的离散变量。给定一组图片-文本对,根据数据集标注,网络无法获取样本之间具体的相似度值,缺少监督信息。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种基于文本的行人检索自监督视觉表示学习系统及方法,解决了上述基于文本的行人检索问题。为了达到以上目的,本专利技术采用的技术方案为:本方案提供一种基于文本的行人检索自监督视觉表示学习系统,包括依次连接的文本-图像特征表示模块、物体特征关系本文档来自技高网...

【技术保护点】
1.一种基于文本的行人检索自监督视觉表示学习系统,其特征在于,包括依次连接的文本-图像特征表示模块、物体特征关系模块、目标函数模块、辅助模块以及视觉表示学习模块;/n所述文本-图像特征表示模块,用于提取文本特征以及初始图片特征;/n所述物体特征关系模块,用于根据初始图片特征构建物体关系推理模型,并根据所述物体关系推理模型输出最终的图片特征;/n所述目标函数模块,用于分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数;/n所述辅助模块,用于利用文本特征构建行人性别标签,并根据行人性别标签构建性别判断任务;以及用于利用行人重识别模型构建不...

【技术特征摘要】
1.一种基于文本的行人检索自监督视觉表示学习系统,其特征在于,包括依次连接的文本-图像特征表示模块、物体特征关系模块、目标函数模块、辅助模块以及视觉表示学习模块;
所述文本-图像特征表示模块,用于提取文本特征以及初始图片特征;
所述物体特征关系模块,用于根据初始图片特征构建物体关系推理模型,并根据所述物体关系推理模型输出最终的图片特征;
所述目标函数模块,用于分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数;
所述辅助模块,用于利用文本特征构建行人性别标签,并根据行人性别标签构建性别判断任务;以及用于利用行人重识别模型构建不同行人之间的相似度值,并根据所述相似度值构建相似度回归任务,以及利用图片特征构建图像描述生成任务;
所述视觉表示学习模块,根据相似度回归任务的损失函数、图像描述生成任务的损失函数、性别判断任务的损失函数、三元损失函数、图片分类损失函数以及文本分类损失函数构建视觉表示学习模型,并根据所述视觉表示学习模型完成对视觉表示的学习。


2.一种基于文本的行人检索自监督视觉表示学习方法,其特征在于,包括以下步骤:
S1、将文本的词嵌入向量输入至双向门控循环单元模型GRU,并利用最大池化处理模型生成两组隐藏状态,得到文本特征;
S2、利用自下而上的注意力模型提取图片的局部特征,利用预训练的行人重识别模型提取图片的全局特征,并根据图片的局部特征和全局特征得到初始图片特征;
S3、根据所述初始图片特征构建物体关系推理模型,并根据所述物体关系推理模型输出最终的图片特征;
S4、分别根据物体关系推理模型、最终的图片特征以及文本特征计算得到三元损失函数、图片分类损失函数以及文本分类损失函数;
S5、利用文本特征构建行人性别标签,并根据行人性别标签构建性别判断任务;
S6、利用行人重识别模型构建不同行人之间的相似度值,根据所述相似度值构建相似度回归任务,并利用最终的图片特征构建图像描述生成任务;
S7、根据所述相似度回归任务的损失函数、图像描述生成任务的损失函数、性别判断任务的损失函数、三元损失函数、图片分类损失函数以及文本分类损失函数构建视觉表示学习模型,并根据所述视觉表示学习模型完成对视觉表示的学习。


3.根据权利要求2所述的基于文本的行人检索自监督视觉表示学习方法,其特征在于,所述步骤S3包括以下步骤:
S301、利用全连接层将初始图片特征映射至语义空间,得到新的图片特征;
S302、根据所述新的图片特征计算得到弦相似度,构建全连接图;
S303、根据所述全连接图,利用图卷机模型GCN学习物体和行人之间的关系;
S304、将物体和行人之间的关系按顺序输入至双向门控循环单元模型GRU中,并对物体和行之间的关系进行筛选和汇总,完成物体关系推理模块的构建;
S305、根据所述物体关系推理模型输出最终的图片特征。


4.根据权利要求3所述的基于文本的行人检索自监督视觉表示学习方法,其特征在于,所述步骤S301中将图片特征映射至语义空间的表达式如下:
G0=WvV+bv
其中,G0表示将图片特征映射至语义空间,Wv和bv分别表示映射层中全连接层的参数,V表示初始的图片特征。


5.根据权利要求3所...

【专利技术属性】
技术研发人员:高联丽樊凯旋宋井宽
申请(专利权)人:贵州大学电子科技大学
类型:发明
国别省市:贵州;52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1