一种物品聚类方法和装置制造方法及图纸

技术编号:39274990 阅读:9 留言:0更新日期:2023-11-07 10:52
本发明专利技术公开了一种物品聚类方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取多个待处理物品的物品信息,对物品信息进行特征提取,得到多个待处理物品对应的物品特征;其中,物品特征包括文本特征和图像特征;基于聚类模型分别对文本特征和图像特征进行第一聚类处理,得到多个簇;分别计算簇中任意两个待处理物品为相同物品的概率值,并根据概率值构建多个待处理物品的概率无向图,根据概率无向图对多个待处理物品进行第二聚类处理,以实现物品聚类。该实施方式提高了物品识别和聚类效率,降低了耗费的人力资源成本,提高了物品聚类的准确率,提升了用户体验。提升了用户体验。提升了用户体验。

【技术实现步骤摘要】
一种物品聚类方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种物品聚类方法和装置。

技术介绍

[0002]相同物品(后续简称同品),是指具备相同的品牌、型号、属性、规格等特征,可以相互替代的同一款物品。
[0003]随着互联网业务的发展,电商平台上的物品数量呈指数级增长,对电商平台而言,进行同品识别和同品聚合具备重要的业务价值,有助于平台进行营销决策(如识别出不同渠道、不同店铺的相同物品的价格差异,为运营提供决策依据)、赋能供应链数字化智能化(如实现跨区域物品调配)、物品底层信息治理(如根据相同物品的底层工业数据,净化平台底层数据质量)。
[0004]现有方法中常用的同品识别与聚类方法有:一、根据物品UPC码(Universal Product Code,用来表示UCC

12商品标识代码的条码符号)进行物品的同品识别和物品聚类;二、人工构建出识别某一物品的属性组合,基于属性组合确定相同物品;三、人工标注,然后通过机器学习模型或深度学习模型来识别相同物品。
[0005]现有技术中至少存在如下问题:
[0006]现有方法中的物品聚类方法存在物品识别和聚类效率低下、自动化程度低,耗费较多人力资源成本,物品聚类准确率低,用户体验差的技术问题。

技术实现思路

[0007]有鉴于此,本专利技术实施例提供一种物品聚类方法和装置,能够结合物品的文本特征和图像特征,快速准确地实现物品聚类,提高了物品识别和聚类效率,提高了物品聚类的自动化程度,降低了耗费的人力资源成本,提高了物品聚类的准确率,提升了用户体验。
[0008]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种物品聚类方法,包括:
[0009]获取多个待处理物品的物品信息,对物品信息进行特征提取,得到多个待处理物品对应的物品特征;其中,物品特征包括文本特征和图像特征;
[0010]基于聚类模型分别对文本特征和图像特征进行第一聚类处理,得到多个簇;
[0011]分别计算簇中任意两个待处理物品为相同物品的概率值,并根据概率值构建多个待处理物品的概率无向图,根据概率无向图对多个待处理物品进行第二聚类处理,以实现物品聚类。
[0012]进一步地,基于聚类模型分别对文本特征和图像特征进行第一聚类处理,得到多个簇的步骤,包括:
[0013]基于文本聚类模型对文本特征进行第一聚类处理,得到多个第一候补簇;
[0014]基于图像聚类模型对图像特征进行第一聚类处理,得到多个第二候补簇;
[0015]确定第一候补簇和第二候补簇中均包括的待处理物品为目标待处理物品,根据目
标待处理物品、第一候补簇和第二候补簇得到多个簇。
[0016]进一步地,在基于聚类模型分别对文本特征和图像特征进行第一聚类处理的步骤之前,方法还包括:
[0017]根据文本特征或图像特征,以及待处理物品的物品属性,对多个待处理物品进行预聚合,得到不同物品属性对应的预簇;其中,物品属性包括物品类目、物品所属品牌以及物品规格。
[0018]进一步地,基于聚类模型分别对文本特征和图像特征进行第一聚类处理的步骤,还包括:
[0019]确定预簇中任意两个待处理物品的文本特征对应的文本特征向量或图像特征对应的图像特征向量;
[0020]根据文本特征向量或图像特征向量计算欧式距离,根据欧式距离与距离阈值,判断两个待处理物品是否为相同物品,并将相同物品置于同一个簇中。
[0021]进一步地,确定第一候补簇和第二候补簇中均包括的待处理物品为目标待处理物品,根据目标待处理物品、第一候补簇和第二候补簇得到多个簇的步骤,还包括:
[0022]确定第一候补簇中待处理物品的文本特征对应的文本特征向量,以及第二候补簇中待处理物品的图像特征对应的图像特征向量,并将图像特征向量映射为二维特征向量;
[0023]将文本特征向量和二维特征向量进行特征融合,分别得到多个待处理物品的融合特征向量;
[0024]确定第一候补簇和第二候补簇中均包括的待处理物品为目标待处理物品,根据目标待处理物品对第一候补簇和第二候补簇进行更新,得到多个簇;其中,簇内的待处理物品中包括融合特征向量。
[0025]进一步地,概率无向图中的节点为待处理物品,节点与节点之间边为两个待处理物品为相同物品的概率值;根据概率无向图对多个待处理物品进行第二聚类处理的步骤包括:
[0026]根据社区发现算法对概率无向图进行聚合处理,得到多个物品集合;其中,物品集合中的待处理物品为相同物品。
[0027]进一步地,在对物品信息进行特征提取,得到多个待处理物品对应的物品特征的步骤之前,方法还包括:
[0028]基于预处理规则对物品信息进行预处理;其中,预处理规则包括大小写转换规则、关键字符删除规则以及字段映射规则。
[0029]根据本专利技术实施例的另一个方面,提供了一种物品聚类装置,包括:
[0030]获取模块,用于获取多个待处理物品的物品信息,对物品信息进行特征提取,得到多个待处理物品对应的物品特征;其中,物品特征包括文本特征和图像特征;
[0031]第一聚类模块,用于基于聚类模型分别对文本特征和图像特征进行第一聚类处理,得到多个簇;
[0032]第二聚类模块,用于分别计算簇中任意两个待处理物品为相同物品的概率值,并根据概率值构建多个待处理物品的概率无向图,根据概率无向图对多个待处理物品进行第二聚类处理,以实现物品聚类。
[0033]根据本专利技术实施例的又一个方面,提供了一种物品聚类的电子设备,包括:
[0034]一个或多个处理器;
[0035]存储装置,用于存储一个或多个程序,
[0036]当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述任一种物品聚类方法。
[0037]根据本专利技术实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一种物品聚类方法。
[0038]上述专利技术中的一个实施例具有如下优点或有益效果:因为采用获取多个待处理物品的物品信息,对物品信息进行特征提取,得到多个待处理物品对应的物品特征;其中,物品特征包括文本特征和图像特征;基于聚类模型分别对文本特征和图像特征进行第一聚类处理,得到多个簇;分别计算簇中任意两个待处理物品为相同物品的概率值,并根据概率值构建多个待处理物品的概率无向图,根据概率无向图对多个待处理物品进行第二聚类处理,以实现物品聚类的技术手段,所以克服了现有方法中存在的物品识别和聚类效率低下、自动化程度低,耗费较多人力资源成本,物品聚类准确率低,用户体验差的技术问题,进而达到能够结合物品的文本特征和图像特征,快速准确地实现物品聚类,提高物品识别和聚类效率,提高物品聚类的自动化程度,降低耗费的人力资源成本,提高物品聚类的准确率,提升用户体验的技术效果。
[0039]上述的非惯用的可选方式所具有的进一步效果将在下文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种物品聚类方法,其特征在于,包括:获取多个待处理物品的物品信息,对所述物品信息进行特征提取,得到多个待处理物品对应的物品特征;其中,所述物品特征包括文本特征和图像特征;基于聚类模型分别对所述文本特征和所述图像特征进行第一聚类处理,得到多个簇;分别计算所述簇中任意两个待处理物品为相同物品的概率值,并根据所述概率值构建所述多个待处理物品的概率无向图,根据所述概率无向图对所述多个待处理物品进行第二聚类处理,以实现所述物品聚类。2.根据权利要求1所述的物品聚类方法,其特征在于,所述基于聚类模型分别对所述文本特征和所述图像特征进行第一聚类处理,得到多个簇的步骤,包括:基于文本聚类模型对所述文本特征进行第一聚类处理,得到多个第一候补簇;基于图像聚类模型对所述图像特征进行第一聚类处理,得到多个第二候补簇;确定所述第一候补簇和所述第二候补簇中均包括的待处理物品为目标待处理物品,根据所述目标待处理物品、所述第一候补簇和所述第二候补簇得到所述多个簇。3.根据权利要求2所述的物品聚类方法,其特征在于,在所述基于聚类模型分别对所述文本特征和所述图像特征进行第一聚类处理的步骤之前,所述方法还包括:根据所述文本特征或所述图像特征,以及所述待处理物品的物品属性,对所述多个待处理物品进行预聚合,得到不同物品属性对应的预簇;其中,所述物品属性包括物品类目、物品所属品牌以及物品规格。4.根据权利要求3所述的物品聚类方法,其特征在于,所述基于聚类模型分别对所述文本特征和所述图像特征进行第一聚类处理的步骤,还包括:确定所述预簇中任意两个待处理物品的文本特征对应的文本特征向量或图像特征对应的图像特征向量;根据所述文本特征向量或所述图像特征向量计算欧式距离,根据所述欧式距离与距离阈值,判断所述两个待处理物品是否为相同物品,并将相同物品置于同一个簇中。5.根据权利要求2所述的物品聚类方法,其特征在于,所述确定所述第一候补簇和所述第二候补簇中均包括的待处理物品为目标待处理物品,根据所述目标待处理物品、所述第一候补簇和所述第二候补簇得到所述多个簇的步骤,还包括:确定所述第一候补簇中待处理物品的文本特征对应的文本特征向量,以及所述第二候补簇中待处理...

【专利技术属性】
技术研发人员:刘磊刘朋樟王知博方俊刘超包勇军
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1