【技术实现步骤摘要】
一种商品聚合并计算相似度的方法
本专利技术涉及机器学习领域,特别涉及一种商品聚合并计算相似度的方法。
技术介绍
近年来随着电子商务的发展,各大电商平台发展如火如荼,不同的spu与sku在不同的电商平台上都会进行不同的文字包装来进行个性化销售,由于商品数量级巨大,导致我们在拿到这些各大平台的商品信息后,很难进行一些商品的比对与聚合工作,比如不同平台同一spu下的sku聚合展示,又或者是想找到相似商品来进行价格、销售属性的多维度比对,同一spu在不同平台的差异化展示等等,面对海量的商品信息,会显得无所适从。尤其是面对多商城同一商品的时候,由于不同商城都有自己的文字包装规则,会使得工作的难度进一步提升。公开号为CN110363251A的专利,提供的一种SKU图像分类方法,利用SPU匹配方法聚合同款SPU的SPU图像;其中,任一款SPU包括至少两种SKU;将各个SKU图像中SKU所在区域作为mask;其中,各个SKU图像均包含于同一款SPU对应的SPU图像;根据各个mask确定对应的颜色信息,并计算各个SKU图像之间的颜色距 ...
【技术保护点】
1.一种商品聚合并计算相似度的方法,其特征在于,包括,/nS1:离线收集多商城商品spu或者sku的商品标题信息;/nS2:对所述商品标题信息进行规范化整理,利用自然语言处理中的word2vec技术离线得到所有数据中每个词语的词向量模型;/nS3:利用得到的词向量模型,离线构建数据集中每个商品标题的文本向量,并将文本向量存储;/nS4:存储商品的具体所属多级分类信息、所属品牌、所属商城的信息;/nS5:在线得到商品标题信息,利用所述词向量模型在线构建商品标题文本向量;/nS6:将库内的商品及文本向量根据条件进行筛选,与在线得到的商品文本向量计算相似度。/n
【技术特征摘要】
1.一种商品聚合并计算相似度的方法,其特征在于,包括,
S1:离线收集多商城商品spu或者sku的商品标题信息;
S2:对所述商品标题信息进行规范化整理,利用自然语言处理中的word2vec技术离线得到所有数据中每个词语的词向量模型;
S3:利用得到的词向量模型,离线构建数据集中每个商品标题的文本向量,并将文本向量存储;
S4:存储商品的具体所属多级分类信息、所属品牌、所属商城的信息;
S5:在线得到商品标题信息,利用所述词向量模型在线构建商品标题文本向量;
S6:将库内的商品及文本向量根据条件进行筛选,与在线得到的商品文本向量计算相似度。
2.根据权利要求1所述的商品聚合并计算相似度的方法,其特征在于,所述将库内的商品及文本向量根据条件进行筛选中的所述条件为分类信息、所属品牌、所属商城的信息。
3.根据权利要求1所述的商品聚合并计算相似度的方法,其特征在于,所述规范化整理为,利用自然语言处理的分词技术,将标题的文本信息进行分词,得到一个词语一个词语的形式,然后进行停止词过滤,去除一些停止词,所述停止词即我们事先整理好的一些无特殊语意的词语和各种标点...
【专利技术属性】
技术研发人员:王鹏翔,
申请(专利权)人:北京值得买科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。