物品图像定位方法及其装置、设备、介质、产品制造方法及图纸

技术编号:37555611 阅读:11 留言:0更新日期:2023-05-15 07:39
本申请涉及一种物品图像定位方法及其装置、设备、介质、产品,所述方法包括:获取商品项的商品图片和商品标题;在多个尺度提取所述商品图片的图像特征,将每个尺度相对应的图像特征与所述商品标题的文本特征相融合,获得相应尺度的图文特征;基于所述多个尺度相对应的图文特征进行多尺度目标检测,检测出所述商品图像中由所述商品标题所描述的物品图像。本申请实现利用商品标题提供的语义来锚定商品图片中的对应物品的图像,结合多尺度检测能够兼顾全局特征和局部特征的优势,所确定出的物品图像与商品标题所描述的内容准确对应,对于电商平台中进行商品检索推荐等业务具有积极作用。平台中进行商品检索推荐等业务具有积极作用。平台中进行商品检索推荐等业务具有积极作用。

【技术实现步骤摘要】
物品图像定位方法及其装置、设备、介质、产品


[0001]本申请涉及电商信息处理技术,尤其涉及一种物品图像定位方法及其装置、设备、介质、产品。

技术介绍

[0002]在电商场景里,对于商品的理解非常重要,比如商品的类目识别、服饰商品的属性识别(包括颜色、男女装等等)对于用户的搜索推荐来说非常重要,因此商品图像中商品的定位是非常重要的第一步。现在的电商商品图像由于模特的展示或者其他展示导致图像中会出现其他商品,目前单纯利用图像技术比较难确定主体商品,这不利于对于后续的商品理解。

技术实现思路

[0003]本申请的目的在于解决上述问题而提供一种物品图像定位方法及其相应的装置、设备、非易失性可读存储介质,以及计算机程序产品。
[0004]根据本申请的一个方面,提供一种物品图像定位方法,包括如下步骤:
[0005]获取商品项的商品图片和商品标题;
[0006]在多个尺度提取所述商品图片的图像特征,将每个尺度相对应的图像特征与所述商品标题的文本特征相融合,获得相应尺度的图文特征;
[0007]基于所述多个尺度相对应的图文特征进行多尺度目标检测,检测出所述商品图像中由所述商品标题所描述的物品图像。
[0008]根据本申请的另一方面,提供一种物品图像定位装置,包括:
[0009]数据获取模块,设置为获取商品项的商品图片和商品标题;
[0010]特征表示模块,设置为在多个尺度提取所述商品图片的图像特征,将每个尺度相对应的图像特征与所述商品标题的文本特征相融合,获得相应尺度的图文特征;
[0011]目标检测模块,设置为基于所述多个尺度相对应的图文特征进行多尺度目标检测,检测出所述商品图像中由所述商品标题所描述的物品图像。
[0012]根据本申请的另一方面,提供一种物品图像定位设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的物品图像定位方法的步骤。
[0013]根据本申请的另一方面,提供一种非易失性可读存储介质,其以计算机可读指令的形式存储有依据所述的物品图像定位方法所实现的计算机程序,所述计算机程序被计算机调用运行时,执行该方法所包括的步骤。
[0014]根据本申请的另一方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
[0015]相对于现有技术,本申请先获取商品图片和商品标题两个模态的数据,在多个尺度提取商品图片的图像特征,并在图像特征中通过特征交互融合的方式,引入商品标题的
文本特征,最终获得多尺度的图文特征,多尺度的图文特征中包含有根据商品标题的文本特征的深层语义,通过这些深层语义突出了所述商品图像中的物品图像的语义,然后将多尺度的图文特征进行多尺度目标检测,便可精准地识别出所述商品图片中的物品图像,实现利用商品标题提供的语义来锚定商品图片中的对应物品的图像,结合多尺度检测能够兼顾全局特征和局部特征的优势,所确定出的物品图像与商品标题所描述的内容准确对应,对于电商平台中进行商品检索推荐、商品分类以及其他相关商品图片处理业务来说,能够提供准确的基础数据,确保相关业务高效准确运行。
附图说明
[0016]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本申请的技术方案的应用环境的网络架构示意图;
[0018]图2a和图2b分别用于说明传统技术和本申请的技术方案对同一图像进行物品图像识别的效果对比,其中图2b是采用相应的商品标题进行识别的结果;
[0019]图3为本申请一种示例性采用的物品图像定位模型的网络架构示意图;
[0020]图4为本申请的物品图像定位方法的一种实施例的流程示意图;
[0021]图5为本申请与图3所示的网络架构相对应的物品图像定位模型的工作流程示意图;
[0022]图6为本申请与图7所示的网络架构相对应的物品图像定位模型的工作流程示意图;
[0023]图7为本申请另一种示例性采用的物品图像定位模型的网络架构示意图;
[0024][0025]图8为本申请实施例中基于注意力机制将图像特征与文本特征进行特征交互融合的流程示意图;
[0026]图9为本申请的实施例中根据预测出的候选框提取物品图像的流程示意图;
[0027]图10为本申请的实施例中基于识别出的物品图像搜索相似商品项获得商品推荐列表的流程示意图;
[0028]图11为本申请的实施例中训练本申请的物品图像定位模型的流程示意图;
[0029]图12和图13用于演示根据本申请的物品图像定位模型,在给定相应的商品图片和商品标题的情况下,从商品图片中识别出物品图像的候选框的效果示意图;
[0030]图14为本申请的物品图像定位装置的原理框图;
[0031]图15为本申请所采用的一种物品图像定位设备的结构示意图。
具体实施方式
[0032]本申请中所引用或可能引用到的模型,包括传统机器学习模型或深度学习模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习
来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
[0033]请参阅图1,本申请一种示例性的应用场景所采用的网络架构,包括终端设备80、独立站81和应用服务器82,所述应用服务器82可用于部署本申请的物品图像定位模型,从而开放物品图像定位服务。所述独立站81可用于部署并开放电商服务的线上店铺,所述终端设备80上的任意用户可以在所述线上店铺的页面中指定商品项,由独立站81确定该商品项的商品图片和商品标题,然后将所述商品图片及商品标题提交至所述存储至所述应用服务器82的物品图像定位服务所开放的接口,由所述物品图像定位服务调用所述物品图像定位模型,根据所述商品图片和商品标题,确定出所述商品图片中,由所述商品标题所描述的物品的物品图像并返回。
[0034]如图2a和图2b所示,按照传统技术对商品图片进行目标检测,会得到如图2a所示的多个候选框,包括其中模特身上的衣服套装、手提包、长筒靴、项链等,作为对比,在给定商品图片以及商品标题“女童12

21手工钉珠胸花套装优雅女士裙”之后等信息之后,本申请的物品图像定位模型可以根据这些信息,预测出如图2b所示的衣服套装所在的候选框,在商品图片中实现对商品标题所描述的物品的精准定位,根据这个候选框进行截图,便可获得相应的物品图像。
[0035]进一步,可以在所述应用服务器实现一个商品检索服务,该商品检索服务进一步封装所述物品图像定位模型,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种物品图像定位方法,其特征在于,包括:获取商品项的商品图片和商品标题;在多个尺度提取所述商品图片的图像特征,将每个尺度相对应的图像特征与所述商品标题的文本特征相融合,获得相应尺度的图文特征;基于所述多个尺度相对应的图文特征进行多尺度目标检测,检测出所述商品图像中由所述商品标题所描述的物品图像。2.根据权利要求1所述的物品图像定位方法,其特征在于,在多个尺度提取所述商品图片的图像特征,将每个尺度相对应的图像特征与所述商品标题的文本特征相融合,获得相应尺度的图文特征,包括:通过降采样编码路径在多个尺度依次对所述商品图片降采样,获得相应尺度的降采样图像特征,其中,将每个尺度待输入的图像特征均与所述商品标题的文本特征进行特征交互融合成为增强降采样特征后再实施降采样操作,以输出相应尺度的降采样图像特征;通过升采样解码路径基于最小尺度的增强降采样特征反向进行多个尺度的升采样操作,在每个尺度执行升采样操作时以相应尺度输入的图像特征为参考,还原出各个尺度相应的升采样图像特征,其中,将每个尺度待输入的图像特征均与所述商品标题的文本特征进行特征交互融合成为增强升采样特征,以输出相应尺度的升采样图像特征;将各个尺度的升采样图像特征合并为多尺度的图文特征。3.根据权利要求1所述的物品图像定位方法,其特征在于,在多个尺度提取所述商品图片的图像特征,将每个尺度相对应的图像特征与所述商品标题的文本特征相融合,获得相应尺度的图文特征,包括:通过降采样编码路径在多个尺度依次对所述商品图片降采样,获得相应尺度的降采样图像特征;通过升采样解码路径基于最小尺度的降采样图像特征反向进行多个尺度的升采样操作,在每个尺度执行升采样操作时以相应尺度的降采样特征为参考,还原出各个尺度相应的升采样图像特征;在至少一个尺度上,将所述商品标题的文本特征与相应尺度的降采样图像特征/升采样图像特征进行特征交互融合,使得至少一个升采样图像特征中包含融合了根据所述文本特征确定的关键图像特征;将各个尺度的升采样图像特征合并为多尺度的图文特征。4.根据权利要求2或3所述的物品图像定位方法,其特征在于,所述进行特征交互融合的过程,包括:将进行特征交互的商品标题的文本特征作为键向量和值向量,将进行特征交互的图像特征作为查询向量,输入注意力层中;在注意力层中将查询向量与键向量相乘后归一化为权重向量,利用所述权重向量提取出所述值向量中的关键特征;在注意力层中将所述关键特征与所述查询向量相融合,获得特征交互融合后的图像特征输出。5.根据权利要求1至3中任意一项所述的物品图像定位方法,其特征在于,基于所述多...

【专利技术属性】
技术研发人员:李保俊
申请(专利权)人:广州欢聚时代信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1