【技术实现步骤摘要】
一种基于层次化风格的条件文本
‑
电商图片检索方法和系统
[0001]本专利技术涉及多媒体检索领域,具体涉及一种基于层次化风格的条件文本
‑
电商图片检索方法和系统。
技术介绍
[0002]条件文本
‑
图片检索是一种高度灵活的检索方式,用户可以根据参考图片,提出针对该图片的修改意见,检索符合用户需求的目标图片。传统的图像单模态检索,只能返回与参考图片接近的目标,无法契合用户的自定义需求;传统的文本
‑
图像跨媒体检索,难以针对用户简短的修改意见精准检索目标。与以上两者不同的是,条件文本
‑
图片检索更加方便灵活,可结合文本、图像两个模态的信息查询检索得到符合用户需求的结果。
[0003]条件文本
‑
图片检索的挑战是如何应对文本与图片两种模态的不一致性,并学习其内在关联。由于图像与文本数据具有不同的的表示形式以及分布特性,且包含不对等的语义信息量,导致不同模态间的特征难以融合利用。
[0004]针对上述问题,现有方法往往将文本与图片模态数据的特征投射到统一语义空间来学习跨模态融合表征,并根据该融合特征检索最接近的目标图像。例如,Chen等人提出VAL方法,通过视觉与文本模态之间的多层级交互,将模态内包含的语义信息更充分地对齐,提高了检索的准确率。Kim等人提出DCNet方法(Jongseok Kim,Youngjae Yu,Hoeseong Kim,and Gunhee Kim.Dual composit ...
【技术保护点】
【技术特征摘要】
1.一种基于层次化风格的条件文本
‑
电商图片的检索方法,包括以下步骤:建立条件文本
‑
电商图片数据库,包含参考图片
‑
修改文本
‑
目标图片的三元组数据;通过滑动窗口机制获得条件文本
‑
电商图片数据库中参考图片的图像块,通过双阶段自注意机制将图像块的平均特征与图像块特征之间进行交互,得到图像块的共性特征;将共性特征通过图推理网络与图像块特征进行融合,并利用局部区域过滤网络过滤掉无用图像块特征,得到图像块的差异特征;将共性特征与差异特征通过低层
‑
高层交互融合得到风格特征,将其作为查询样例,根据查询样例检索目标图片。2.如权利要求1所述的方法,其特征在于,所述条件文本
‑
电商图片数据库,包含参考图片
‑
修改文本
‑
目标图片的三元组数据;参考图片为电商产品图片;修改文本为针对颜色、尺寸、风格等方面的修改意见;目标图片为以参考图片为基础,最接近修改文本要求的电商产品图片。3.如权利要求1所述的方法,其特征在于,所述双阶段自注意力机制对图像块特征训练双阶段自注意力网络,将每个图像块映射到共有的语义空间,得到图像块的共性特征。4.如权利要求1所述的方法,其特征在于,所述双阶段自注意机制为:a)将图片分割为多个图像块,并提取特征得到图像块特征p
i
;b)使用简单自注意力机制,将所有图像块特征p
i
的平均作为p
r
;c)对p
r
使用多头注意力机制得到p
m
,通过如下公式计算图像块的共性特征p
c
:p
c
=f
c
([p
m
,f
q
(p
r
)])其中,f
c
和f
q
都为全连接层。5.如权利要求4所述的方法,其特征在于,所述图像块的差异特征的构造方法为:a)将每个图像块特征p
i
以及共性特征p
c
作为图节点,通过如下公式分别建立图推理网络中的点和边e:和边e:其中,W
in
和W
out
为全连接层,在入节点v
in
和出节点v
out
之间之间传递关联信息;b)构建图推理网络后,通过如下公式更新图推理网络中的节点与边:其中,L表示图推理网络的层数,表示全连接层;经过图推理网络后,共性特征p
c
与图像块特征之间充分关联完成信息交互,初步得到差异特征c)为了减小不重要图像块对结果的干扰,设计过滤网络自适应地计算图像块的权重并更新得到过滤后的差异特征计算过程如下:
其中,σ为Sigmoid函数,BN为批标准化操作,W
f
为全连接层,v
i
为图像块特征;d)引入两个自学习参数α和β来平衡与的重要程度,并得到差异特征p
d
,如以下公式所示:6.如权利要求5所述的方法,其特征在于,所述将共性特征与差异特征通过低层
‑
高层交互融合得到风格特征,是使用域内域间跨模态对齐的方式将包含风格的视觉特征和修改文本的文本特征进行融合,包括以下步骤:a)将图像块共性特征与图像块差异特征融合,通过如下公式得到低层交...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。