一种电商商品数据去重方法技术

技术编号:31749872 阅读:28 留言:0更新日期:2022-01-05 16:31
本发明专利技术公开了一种电商商品数据去重方法,包括以下所述工作步骤:(1)对获取的到的商品原始数据做集中化处理,并对集中化的数据进行ETL处理;(2)对ETL处理商品进行商品特征标签打标,并且补全更新商品的缺省特征值;(3)计算出所有商品的数据集合备选集,并计算出所有商品的特征词向量;(4)把得到的所有商品的商品数据集的特征词转换而来的特征向量数据集。本发明专利技术通过形成产业链上下游认同的数据标准,打通产业链的话语体系,可降低平台的沟通成本,将其使用效率提高,通过渠道商和企业客户会根据自己的商品目录、采购目录设置同一套编码系统,使得上中下游的数字化互通互联,降低其沟通成本。通成本。通成本。

【技术实现步骤摘要】
一种电商商品数据去重方法


[0001]本专利技术涉及商品数据去重
,具体为一种电商商品数据去重方法。

技术介绍

[0002]电商是对传统交易从上到下的革命浪潮,有着巨大的研究意义和商业应 用,相应的产业也迅猛增长,各种电商和概念也层出不穷,电商的组织形式 和应用背景也是多种多样的,而商品在电商中是属于最重要的一环,所有的 环节都与商品息息相关,随着电商的蓬勃发展,越来越多的商品通过线上进 行交易管理,形成了庞大的商品库。
[0003]现有技术中一种电商商品数据去重方法缺点不足:
[0004]1、对比文件CN108388555A公开了一种基于行业类别的商品去重方法及 装置,包括“将待比较的至少两个商品的字段信息进行分词处理,得到每个 商品对应的至少一个分词;根据商品的每个分词的分词向量以及每个分词的 行业权重,计算商品的商品向量;计算至少两个商品的商品向量之间的距离, 根据距离确定是否对至少两个商品中的一个或多个商品进行去重处理。本发 明利用了各商品的字段信息在各不同行业中的行业权重,计算商品的商品向 量,得到的商品向量与行本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种电商商品数据去重方法,其特征在于:包括以下所述工作步骤:(1)对获取的到的商品原始数据做集中化处理,并对集中化的数据进行ETL处理;(2)对ETL处理商品进行商品特征标签打标,并且补全更新商品的缺省特征值;(3)计算出所有商品的数据集合备选集,并计算出所有商品的特征词向量;(4)把得到的所有商品的商品数据集的特征词转换而来的特征向量数据集;(5)商品的特征数组和多个备选商品数组中的每个备选数组的近似度系数,再在一个实例中通过NPL自然语言处理商品的一个所述商品的数组中的A名称,B品牌,C型号,D参数,E颜色,F单位;(6)商品集合的特征实例序列集合和下一个第二商品集合的特征实例序列集合之间的对比集合,直到所有的待比对序列对比完成;(7)商品和其他相似度极高的商品备选集合的精准相似。2.根据权利要求1所述的一种电商商品数据去重方法,其特征在于:所述步骤(1)中,准备商品数据集,初始化数据集到数据库中,把所有的商品数据按行业商品数据的特定特征(品牌、型号、分类、规格等)进行初步的ETL处理,然后再导入ODS数据集合中。3.根据权利要求1所述的一种电商商品数据去重方法,其特征在于:所述步骤(2)中,给所有商品进行商品的特征进行商品特征标签打标,如果没有特定的特征数据,就按照预先设定好的商品第一个特征值作为商品的预设特征,如果有特殊特征,就安装多个特征值来确定某一个特征值。然后就可以根据商品的第一特征、第二特征....第N特征来的标签来确定商品的特征数据集,确定所述商品的缺省特征权重算法,根据商品的特征缺省权重基于工业商品特有的行业数据库的特征缺省算法来补全更新商品的缺省特征值。4.根据权利要求1所述的一种电商商品数据去重方法,其特征在于:所述步骤(3)中,基于商品的特征标签数据确定商品的向量特征,根据行业积累的综合型特征词积累库,对该实例的所有商品进行特征词数据集打标,再把所有的特征词推送到算法开源模型MILVUS,该开源算法模型如图3所示,进行所有商品的向量初始化,该数据集根据图1所示,会计算出所有商品的数据集合备选集,通过数据集合导入算法模型,通过开源jieba算法模型进行数据分词,然后把所有的基础数据表进行数据仓存储的分层,分别是建立商品基础数据层,建立完善数据层,其中的所有商品数据包含商品的基本特征数据的细节数据,如商品名称、商品品牌、商品型号等,然后如图2所示,在一个实例中通过word2vec算法模型,如图3所示,计算出所有商品的特征词向量。5.根据权利要求1所述的一种电商商品数据去重方法,其特征在于:所述步骤(4)中,把得到的所有商品的商品数据集的特征词转换而来的特征向量数据集,在一实例中可以得到商品的备选集合,然后确定所述多个备选数组中的每个备选数组与所述商品所属的数组的相似度系数包括:基于所述备选数组的数组特质与所述商品所属的数组特质是否相同,为备选数组设置第一近似值;基于所述备选数组的行业类型数据与所述商品所属的数组的行业类型数据是否相同,为备选数组设置第二近似值;基于所述备选数组的数组规模与所述商品所属的数组规模是否相同,为备选数组设置第三近似值;基于所述备选数组的所处地域与所述商品所属的数组的所处地域是否相同,为备选数组设置第四近似值;以及基于所述第一近似值、所述第二近似值、所述第三近似值和所述第四近似值确定所述备选数组与所述商品所属的数组之间的相似度系数。
6.根据权利要求1所述的一种电商商品数据去重方法,其...

【专利技术属性】
技术研发人员:何承隆
申请(专利权)人:欧菲斯集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1