【技术实现步骤摘要】
计算商品相似度的方法和装置
本专利技术涉及计算机
,尤其涉及一种计算商品相似度的方法和装置。
技术介绍
随着互联网的迅猛发展,网上购物越来越普遍。为便于用户快速找到称心如意的商品,购物网站通常会向用户提供个性化的商品推荐服务。在一些商品推荐方法中,是根据用户的浏览或购买记录推荐相似商品。为推荐相似商品,需要计算每个商品的相似商品集合。现有技术是基于BagofWords(词袋)方法计算商品相似度,其主要依靠商品的标签、属性等特征。考虑到动辄数十亿的商品数据规模,两两计算全量数据会耗费巨大的计算资源,且计算时间高达几万小时,计算效率让人无法接受。为了减少计算量,现有技术在计算商品相似度时,对商品的价格区间进行了限制,即只计算相邻价格区间的商品的相似度。并且,在计算商品相似度时依靠HiveSQL(一种基于Hadoop的数据仓库工具)进行分布式计算。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:第一、由于商品中的特征数量少,因此,传统计算文本相似度的BagofWords方法不能理解商品的深层语义信息,计算出的相似商品往往不准确。第二、现有商品相似 ...
【技术保护点】
1.一种计算商品相似度的方法,其特征在于,包括:将商品特征数据输入深度学习模型,以训练得到特征词向量;基于多个特征词向量构建商品向量;根据哈希算法筛选所述商品向量的相似商品候选集;计算所述商品向量与其相似商品候选集中的商品向量的相似度。
【技术特征摘要】
1.一种计算商品相似度的方法,其特征在于,包括:将商品特征数据输入深度学习模型,以训练得到特征词向量;基于多个特征词向量构建商品向量;根据哈希算法筛选所述商品向量的相似商品候选集;计算所述商品向量与其相似商品候选集中的商品向量的相似度。2.根据权利要求1所述的方法,其特征在于,所述深度学习模型为word2vec模型。3.根据权利要求1所述的方法,其特征在于,所述基于多个特征词向量构建商品向量的步骤包括:根据商品特征出现的频率确定特征词向量的权重;对所述多个特征词向量进行加权求和,以得到商品向量。4.根据权利要求1所述的方法,其特征在于,所述哈希算法为随机映射局部敏感哈希算法。5.根据权利要求4所述的方法,其特征在于,所述根据哈希算法筛选所述商品向量的相似商品候选集的步骤包括:计算所述商品向量的哈希签名;根据设置的哈希签名的比较步长值确定所述商品向量的相似商品;判断所述商品向量的相似商品数量是否大于预设阈值;在所述商品向量的相似商品数量大于预设阈值的情况下,基于所述相似商品构建所述商品向量的相似商品候选集。6.根据权利要求5所述的方法,其特征在于,所述根据哈希算法筛选所述商品向量的相似商品候选集的步骤还包括:在所述商品向量的相似商品数量不大于预设阈值的情况下,降低所述比较步长值,并基于降低后的比较步长值确定所述商品向量的相似商品。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据如下公式计算商品向量的相似度:余弦距离公式、汉明距离公式、或欧式距离公式。8.一种计算商品相似度的装置,其特征在于,所述装置包括:训练模块,用于将商品特征数据输入深度学习模型,以训练得到特征词向量;构建模块,用于基于多个特征词向量构建商品向量;筛选模块,用于根据哈希算法筛选所述商品向量的相似商品候选集;计算模块,用于...
【专利技术属性】
技术研发人员:李陈程,程苏珺,于海,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。