【技术实现步骤摘要】
本专利技术涉及服装图像检索,具体涉及一种基于特征增强和多粒度匹配的文本引导的服装图像检索方法。
技术介绍
1、图像检索是指从图像库中检索符合用户意图的图像。虽然最近基于深度学习的图像检索取得很多成果,但是语义鸿沟和意图差距仍然是两大挑战。传统的图像检索一般可分为图像-图像检索和图像-文本检索,前者以图搜图,后者进行图文匹配,然而这种以单一模态作为输入的查询对用户意图的表达力有限。图文组合的多模态查询则能提供更多样化的信息,更能体现用户需求。图文组合的多模态查询也被称为文本引导的图像检索,或带有文本反馈的图像检索。文本引导的图像检索系统尤其适合基于对话的交互式检索场景,而这样的场景在电商领域极为常见。例如用户对所见到的服装图像不完全满意,那么用户可以基于这张图像输入想得到的属性的修改描述以获得更准确的检索结果。并且用户可以基于上一次的检索结果继续输入文本条件,完成多轮检索,直到发现完全符合需求的商品。文本引导的服装图像检索在电商领域有巨大的发展潜力,因而具有重要的应用价值和研究意义。
2、这项工作最早出现在tirg(text
...【技术保护点】
1.基于特征增强和多粒度匹配的文本引导的服装图像检索方法,其特征在于,具体步骤如下:
2.根据权利要求1所述的基于特征增强和多粒度匹配的文本引导的服装图像检索方法,其特征在于,步骤一中,对服装数据集中的图像做预处理具体如下:服装数据集以<查询图像,文本条件,目标图像>的三元组形式组织;对<查询图像,文本条件,目标图像>三元组中的查询图像和目标图像依次使用如下python库函数做预处理:Resize([256,256]、CenterCrop(224)、ToTensor()、Normalize([0.485,0.456,0.406],[
...【技术特征摘要】
1.基于特征增强和多粒度匹配的文本引导的服装图像检索方法,其特征在于,具体步骤如下:
2.根据权利要求1所述的基于特征增强和多粒度匹配的文本引导的服装图像检索方法,其特征在于,步骤一中,对服装数据集中的图像做预处理具体如下:服装数据集以<查询图像,文本条件,目标图像>的三元组形式组织;对<查询图像,文本条件,目标图像>三元组中的查询图像和目标图像依次使用如下python库函数做预处理:resize([256,256]、centercrop(224)、totensor()、normalize([0.485,0.456,0.406],[0.229,0.224,0.225]);预处理后的用于训练模型的服装数据集中的三元组表示为其中is表示预处理后的查询图像,ts表示文本条件,it表示预处理后的目标图像,n表示三元组的数量。
3.根据权利要求2所述的基于特征增强和多粒度匹配的文本引导的服装图像检索方法,其特征在于,步骤二中,所述基于特征增强和多粒度匹配的文本引导的服装图像检索模型由图像编码器、文本编码器、图像文本合成模块、噪声增强模块组成;
4.根据权利要求3所述的基于特征增强和多粒度匹配的文本引导的服装图像检索方法,其特征在于,步骤二中,所述图像文本合成模块包括两个动态交互层;每个动态交互层由一个路由节点和三个专家节点组成,第一个动态交互层的输入来自图像编码器和文本编码器的输出,第二个动态交互层的输入来自第一个动态交互层和文本编码器的输出;每个动态交互层中的三个专家节点并行运作,这三个专家节点对输入到动态交互层中的中间特征x和文本特征做处理,若为第一个动态交互层,则中间特征x为图像编码器输出的查询图像特征若为第二个动态交互层,则x为第一个动态交互层的输出,文本特征来自文本编...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。