当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于层次化风格的条件文本-电商图片检索方法和系统技术方案

技术编号:37515481 阅读:15 留言:0更新日期:2023-05-12 15:36
本发明专利技术涉及一种基于层次化风格的条件文本

【技术实现步骤摘要】
一种基于层次化风格的条件文本

电商图片检索方法和系统


[0001]本专利技术涉及多媒体检索领域,具体涉及一种基于层次化风格的条件文本

电商图片检索方法和系统。

技术介绍

[0002]条件文本

图片检索是一种高度灵活的检索方式,用户可以根据参考图片,提出针对该图片的修改意见,检索符合用户需求的目标图片。传统的图像单模态检索,只能返回与参考图片接近的目标,无法契合用户的自定义需求;传统的文本

图像跨媒体检索,难以针对用户简短的修改意见精准检索目标。与以上两者不同的是,条件文本

图片检索更加方便灵活,可结合文本、图像两个模态的信息查询检索得到符合用户需求的结果。
[0003]条件文本

图片检索的挑战是如何应对文本与图片两种模态的不一致性,并学习其内在关联。由于图像与文本数据具有不同的的表示形式以及分布特性,且包含不对等的语义信息量,导致不同模态间的特征难以融合利用。
[0004]针对上述问题,现有方法往往将文本与图片模态数据的特征投射到统一语义空间来学习跨模态融合表征,并根据该融合特征检索最接近的目标图像。例如,Chen等人提出VAL方法,通过视觉与文本模态之间的多层级交互,将模态内包含的语义信息更充分地对齐,提高了检索的准确率。Kim等人提出DCNet方法(Jongseok Kim,Youngjae Yu,Hoeseong Kim,and Gunhee Kim.Dual compositional learning in interactive image retrieval.In Thirty

Fifth AAAI Conference on Artificial Intelligence,AAAI 2021.),通过引入文本查询最小化统一空间中参考图片和目标图片之间的差异,提升了条件文本

图片的检索效率。此外,挖掘图片中包含的丰富的语义信息,有助于跨模态融合表征与目标图片表征之间的对齐。例如,Baldrati等人提出了CLIP4Cir方法(Alberto Baldrati,Marco Bertini,Tiberio Uricchio,and Alberto Del Bimbo.Effective conditioned and composed image retrieval combining clip

based features.In IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2022),通过引入CLIP模型提取图像与文本的特征,设计了简洁高效的融合模型将两种模态的特征映射到同一表征空间。
[0005]然而,上述方法都没有考虑到电商图片中包含的风格信息,例如都市风、运动风、校园风等。而这些风格信息对满足用户的修改需求、提高用户检索体验至关重要。

技术实现思路

[0006]针对现有技术的不足,本专利技术提出了一种基于层次化风格的条件文本

电商图片的检索方法和系统。定义电商图片的风格为图片局部区域之间的共性和差异。根据此定义,本专利技术利用双阶段自注意机制,以及图推理网络和局部区域过滤网络分别学习图像局部区域的共性特征和差异特征,从而建模图像风格。本专利技术通过模态内

模态间两种方式融合风格强化的图像特征与文本特征,进一步将融合特征与目标特征对齐,取得了更好的检索准
确率。
[0007]为达到以上目的,本专利技术采用的技术方案如下:
[0008]一种基于层次化风格的条件文本

电商图片的检索方法,包括以下步骤,其中步骤(1)

(3)得到包含电商图片风格的语义信息,步骤(4)进一步实现参考图片特征和修改文本的融合,检索目标商品图片:
[0009](1)建立条件文本

电商图片数据库,包含参考图片

修改文本

目标图片的三元组数据;
[0010](2)通过滑动窗口机制获得条件文本

电商图片数据库中参考图片的图像块,通过双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互,得到图像块的共性特征;
[0011](3)将步骤(2)中得到的共性特征通过图推理网络与图像块特征进行融合,并利用局部区域过滤网络过滤掉无用图像块特征,得到图像块的差异特征;
[0012](4)将步骤(2)中共性特征与步骤(3)中差异特征通过低层

高层交互融合得到风格特征,将其作为查询样例,根据查询样例检索目标图片,即将条件文本

电商图片数据库中目标图片的特征作为查询目标,计算查询样例和查询目标的相似性,根据相似性得到目标模态数据的相关结果列表。
[0013]进一步,上述一种基于层次化风格的条件文本

电商图片的检索方法,所述步骤(1)条件文本

电商图片数据库包含图像、文本两种模态,可以包含多种服装种类和风格。
[0014]进一步,上述一种基于层次化风格的条件文本

电商图片的检索方法,所述步骤(2)的双阶段自注意力机制,对图像块特征训练双阶段自注意力网络,将每个图像块映射到共有的语义空间,得到图像块的共性特征。
[0015]进一步,上述一种基于层次化风格的条件文本

电商图片的检索方法,所述步骤(3)中图推理网络和局部区域过滤网络,使用多层图推理的方式将从不同图像块蕴含的语义信息进行关联,并自适应地过滤关联性弱的无用图像块特征,得到图像块的差异特征。
[0016]进一步,上述一种基于层次化风格的条件文本

电商图片的检索方法,所述步骤(4)的检索方式是,使用风格特征作为查询样例,目标图片的特征作为查询目标。对于每个查询样例,与查询目标的所有数据计算相似性,然后按照相似性从大到小排序,得到相关结果列表。
[0017]与上面方法对应的,本专利技术还提供一种基于层次化风格的条件文本

电商图片的检索系统,其包括:
[0018]共性特征提取模块,用于使用滑动窗口机制和双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互,得到图像块的共性特征;
[0019]差异特征提取模块,用于将共性特征通过图推理网络与图像块特征进行融合,并利用局部区域过滤网络过滤掉无用图像块特征,得到图像块的差异特征;
[0020]特征融合模块,用于将共性特征与差异特征通过低层

高层交互融合得到风格特征;
[0021]检索模块,用于将风格特征作为查询样例,将目标图片作为查询目标,计算查询样例和查询目标的相似性,将相似性按照从大到小排序,根据相似性得到目标模态图片数据的相关结果列表。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于层次化风格的条件文本

电商图片的检索方法,包括以下步骤:建立条件文本

电商图片数据库,包含参考图片

修改文本

目标图片的三元组数据;通过滑动窗口机制获得条件文本

电商图片数据库中参考图片的图像块,通过双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互,得到图像块的共性特征;将共性特征通过图推理网络与图像块特征进行融合,并利用局部区域过滤网络过滤掉无用图像块特征,得到图像块的差异特征;将共性特征与差异特征通过低层

高层交互融合得到风格特征,将其作为查询样例,根据查询样例检索目标图片。2.如权利要求1所述的方法,其特征在于,所述条件文本

电商图片数据库,包含参考图片

修改文本

目标图片的三元组数据;参考图片为电商产品图片;修改文本为针对颜色、尺寸、风格等方面的修改意见;目标图片为以参考图片为基础,最接近修改文本要求的电商产品图片。3.如权利要求1所述的方法,其特征在于,所述双阶段自注意力机制对图像块特征训练双阶段自注意力网络,将每个图像块映射到共有的语义空间,得到图像块的共性特征。4.如权利要求1所述的方法,其特征在于,所述双阶段自注意机制为:a)将图片分割为多个图像块,并提取特征得到图像块特征p
i
;b)使用简单自注意力机制,将所有图像块特征p
i
的平均作为p
r
;c)对p
r
使用多头注意力机制得到p
m
,通过如下公式计算图像块的共性特征p
c
:p
c
=f
c
([p
m
,f
q
(p
r
)])其中,f
c
和f
q
都为全连接层。5.如权利要求4所述的方法,其特征在于,所述图像块的差异特征的构造方法为:a)将每个图像块特征p
i
以及共性特征p
c
作为图节点,通过如下公式分别建立图推理网络中的点和边e:和边e:其中,W
in
和W
out
为全连接层,在入节点v
in
和出节点v
out
之间之间传递关联信息;b)构建图推理网络后,通过如下公式更新图推理网络中的节点与边:其中,L表示图推理网络的层数,表示全连接层;经过图推理网络后,共性特征p
c
与图像块特征之间充分关联完成信息交互,初步得到差异特征c)为了减小不重要图像块对结果的干扰,设计过滤网络自适应地计算图像块的权重并更新得到过滤后的差异特征计算过程如下:
其中,σ为Sigmoid函数,BN为批标准化操作,W
f
为全连接层,v
i
为图像块特征;d)引入两个自学习参数α和β来平衡与的重要程度,并得到差异特征p
d
,如以下公式所示:6.如权利要求5所述的方法,其特征在于,所述将共性特征与差异特征通过低层

高层交互融合得到风格特征,是使用域内域间跨模态对齐的方式将包含风格的视觉特征和修改文本的文本特征进行融合,包括以下步骤:a)将图像块共性特征与图像块差异特征融合,通过如下公式得到低层交...

【专利技术属性】
技术研发人员:彭宇新陈彦哲何相腾
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1