一种对物品进行分类的方法和装置制造方法及图纸

技术编号:28116791 阅读:19 留言:0更新日期:2021-04-19 11:15
本发明专利技术公开了一种对物品进行分类的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据用户的搜索点击行为数据,计算所述搜索点击行为数据中各个物品词之间的相似度;根据所述各个物品词之间的相似度,对所述各个物品词进行聚类,得到多个簇,并对所述多个簇分别标记标签;对目标物品的物品描述提取目标物品词,根据所述目标物品词所属的簇,将所述目标物品映射到相应的簇上,从而对所述目标物品进行分类。该实施方式能够解决对物品的分类不准确的技术问题。物品的分类不准确的技术问题。物品的分类不准确的技术问题。

【技术实现步骤摘要】
一种对物品进行分类的方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种对物品进行分类的方法和装置。

技术介绍

[0002]目前,主要采用以下方法对物品进行分类(即功能定位):
[0003]1)基于物品所属类目进行分类
[0004]比如“手机”、“瑞表”、“国表”及“汽车附件”等,可以基于管理类目对物品进行分类,以定位物品的功能。
[0005]2)基于物品描述中的物品词进行分类
[0006]为了让用户更好地了解物品,往往会对物品进行比较详细的描述,比如“卫浴台上盆aP43007面盆台盆陶瓷艺术盆卫生间洗手洗脸盆浴室柜盆aP43007全套含龙头”,应用自然语言处理技术提取其中的核心物品词:[“台上盆”,“浴室柜盆”,“艺术盆”],用以上物品词对物品进行分类,以定位物品的功能。
[0007]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0008]1)基于物品所属类目进行分类:
[0009]类目覆盖范围过大,导致部分应该推荐展示的物品被误过滤。比如某用户购买一款汽车车垫的商品,所属类别为“汽车附件”,那么再次曝光周期内所有“汽车附件”中的物品(包括“汽车后视镜”、“汽车坐垫清洁剂”等)都进行过滤是不合理的。
[0010]类目覆盖范围过小,导致推荐展示部分不应该展示的物品,比如某用户购买了一款“国表”,再次曝光周期内如果再推送展现大量的“瑞表”,不仅浪费了流量,而且会给用户带来不好的用户体验。
[0011]2)基于物品描述中的物品词进行分类:
[0012]物品词覆盖的范围往往很有限,而归在同一类中的物品存在很多种物品词。比如某用户购买了一款“浴室柜盆”,根据物品词“浴室柜盆”并不能过滤掉“柜盆”、“三孔盆”等具有相同功能的物品。
[0013]因此,上述两种分类方法存在过粗或者过细的问题,导致对物品的分类不准确。

技术实现思路

[0014]有鉴于此,本专利技术实施例提供一种对物品进行分类的方法和装置,以解决对物品的分类不准确的技术问题。
[0015]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种对物品进行分类的方法,包括:
[0016]根据用户的搜索点击行为数据,计算所述搜索点击行为数据中各个物品词之间的相似度;
[0017]根据所述各个物品词之间的相似度,对所述各个物品词进行聚类,得到多个簇,并对所述多个簇分别标记标签;
[0018]对目标物品的物品描述提取目标物品词,根据所述目标物品词所属的簇,将所述目标物品映射到相应的簇上,从而对所述目标物品进行分类。
[0019]可选地,根据用户的搜索点击行为数据,计算所述搜索点击行为数据中各个物品词之间的相似度,包括:
[0020]根据用户的搜索点击行为数据,分别确定各个物品词的词频以及两两物品词在搜索点击行为数据中出现的共现关系;
[0021]根据各个物品词的词频以及两两物品词在搜索点击行为数据中出现的共现关系,分别计算两两物品词之间的相似度。
[0022]可选地,根据各个物品词的词频以及两两物品词在搜索点击行为数据中出现的共现关系,分别计算两两物品词之间的相似度,包括:
[0023]采用以下方法计算两两物品词之间的相似度:
[0024]根据第一物品词在各个搜索点击行为数据中出现的次数、第二物品词在各个搜索点击行为数据中出现的次数、第一物品词在所有搜索点击行为数据中出现的次数之和、第二物品词在所有搜索点击行为数据中出现的次数之和、以及各个搜索点击行为数据中出现的物品词的个数,得到第一系数;
[0025]将同时出现第一物品词和第二物品词的搜索点击行为数据的个数与至少出现第一物品词和第二物品词中一个的搜索点击行为数据个数相除,得到第二系数;
[0026]将所述第一系数与所述第二系数的乘积作为所述第一物品词与所述第二物品词的相似度。
[0027]可选地,采用以下公式计算两两物品词之间的相似度:
[0028][0029]其中,pw1_freq
i
表示物品词pw1在第i个搜索点击行为数据中出现的次数;pw2_freq
i
表示物品词pw2在第i个搜索点击行为数据中出现的次数;pw1_freq表示物品词pw1在所有搜索点击行为数据中出现的次数之和;pw2_freq表示物品词pw2在所有搜索点击行为数据中出现的次数之和;click_skus_len
i
表示第i个搜索点击行为数据中出现的物品词的个数;intersect_num表示同时出现物品词pw1和物品词pw2的搜索点击行为数据的个数;union_num表示至少出现物品词pw1和物品词pw2其中一个的搜索点击行为数据的个数。
[0030]可选地,根据所述各个物品词之间的相似度,对所述各个物品词进行聚类,得到多个簇,包括:
[0031]根据所述各个物品词之间的相似度,构建带权无向图;
[0032]采用马尔可夫聚类算法对所述带权无向图进行聚类,得到多个簇。
[0033]可选地,采用马尔可夫聚类算法对所述带权无向图进行聚类,得到多个簇,包括:
[0034]采用马尔可夫聚类算法对所述带权无向图进行聚类,得到多个簇;
[0035]若任意一个簇的大小大于数量阈值,则根据该簇所包含的各个物品之间的相似度,生成带权无向子图,并采用马尔可夫聚类算法对所述带权无向子图进行聚类,再次得到多个簇;
[0036]直到所有簇的大小均小于等于数量阈值。
[0037]可选地,在采用马尔可夫聚类算法对所述带权无向图进行聚类,得到多个簇之后,还包括:
[0038]根据两两簇所包含的物品之间的相似度,计算两两簇之间的相似度;
[0039]若两两簇之间的相似度大于相似度阈值,则将这两个簇合并为一个簇。
[0040]可选地,根据两两簇所包含的物品之间的相似度,计算两两簇之间的相似度,包括:
[0041]以第一簇所包含的物品数量和第二簇所包含的物品数量之和作为分母,以第一簇所包含的物品与第二簇所包含的物品之间的相似度之和作为分子,计算得到的商作为两两簇之间的相似度。
[0042]另外,根据本专利技术实施例的另一个方面,提供了一种对物品进行分类的装置,包括:
[0043]计算模块,用于根据用户的搜索点击行为数据,计算所述搜索点击行为数据中各个物品词之间的相似度;
[0044]聚类模块,用于根据所述各个物品词之间的相似度,对所述各个物品词进行聚类,得到多个簇,并对所述多个簇分别标记标签;
[0045]映射模块,用于对目标物品的物品描述提取目标物品词,根据所述目标物品词所属的簇,将所述目标物品映射到相应的簇上,从而对所述目标物品进行分类。
[0046]可选地,所述计算模块还用于:
[0047]根据用户的搜索点击行为数据,分别确定各个物品词的词频以及两两物品词在搜索点击行为数据中出现的共现关系;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对物品进行分类的方法,其特征在于,包括:根据用户的搜索点击行为数据,计算所述搜索点击行为数据中各个物品词之间的相似度;根据所述各个物品词之间的相似度,对所述各个物品词进行聚类,得到多个簇,并对所述多个簇分别标记标签;对目标物品的物品描述提取目标物品词,根据所述目标物品词所属的簇,将所述目标物品映射到相应的簇上,从而对所述目标物品进行分类。2.根据权利要求1所述的方法,其特征在于,根据用户的搜索点击行为数据,计算所述搜索点击行为数据中各个物品词之间的相似度,包括:根据用户的搜索点击行为数据,分别确定各个物品词的词频以及两两物品词在搜索点击行为数据中出现的共现关系;根据各个物品词的词频以及两两物品词在搜索点击行为数据中出现的共现关系,分别计算两两物品词之间的相似度。3.根据权利要求2所述的方法,其特征在于,根据各个物品词的词频以及两两物品词在搜索点击行为数据中出现的共现关系,分别计算两两物品词之间的相似度,包括:采用以下方法计算两两物品词之间的相似度:根据第一物品词在各个搜索点击行为数据中出现的次数、第二物品词在各个搜索点击行为数据中出现的次数、第一物品词在所有搜索点击行为数据中出现的次数之和、第二物品词在所有搜索点击行为数据中出现的次数之和、以及各个搜索点击行为数据中出现的物品词的个数,得到第一系数;将同时出现第一物品词和第二物品词的搜索点击行为数据的个数与至少出现第一物品词和第二物品词中一个的搜索点击行为数据个数相除,得到第二系数;将所述第一系数与所述第二系数的乘积作为所述第一物品词与所述第二物品词的相似度。4.根据权利要求1所述的方法,其特征在于,根据所述各个物品词之间的相似度,对所述各个物品词进行聚类,得到多个簇,包括:根据所述各个物品词之间的相似度,构建带权无向图;采用马尔可夫聚类算法对所述带权无向图进行聚类,得到多个簇。5.根据权利要求4...

【专利技术属性】
技术研发人员:袁豪曾子权
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1