商品数据的处理方法、装置及电子设备制造方法及图纸

技术编号:26305433 阅读:43 留言:0更新日期:2020-11-10 20:03
本发明专利技术提供了一种商品数据的处理方法、装置及电子设备,涉及数据处理技术领域,包括获取不同来源的原始商品数据;对原始商品数据进行统一化预处理,得到预处理后的商品数据;对预处理后的商品数据进行相似度匹配计算;基于相似度匹配计算的结果对预处理后的商品数据进行聚类,以使属于同一商品实体的商品数据聚合为一簇。本发明专利技术可以有效减少商品库中不同来源的商品数据的数据冗余,降低了对不同来源的商品数据同时处理的难度,进一步提升了后期数据维护的效率。

【技术实现步骤摘要】
商品数据的处理方法、装置及电子设备
本专利技术涉及数据处理
,尤其是涉及一种商品数据的处理方法、装置及电子设备。
技术介绍
商品库是电商、零售等行业在选品上新、业务运营、数据获取等各个业务流程中必不可少的工具和系统,几乎为每一个业务环节都直接给出了数据支持。目前,将不同来源的商品数据引入商品库时,由于不同的数据源、不同的平台甚至同一平台的不同商家的商品数据结构差异性较大,导致商品库中存在大量的冗余数据,同时对不同来源的异构数据进行处理难度较大,且不便于后期数据的维护。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种商品数据的处理方法、装置及电子设备,可以有效减少商品库中不同来源的商品数据的数据冗余,降低了对不同来源的商品数据同时处理的难度,进一步提升了后期数据维护的效率。为了实现上述目的,本专利技术实施例采用的技术方案如下:第一方面,本专利技术实施例提供了一种商品数据的处理方法,包括:获取不同来源的原始商品数据;对原始商品数据进行统一化预处理,得到预处理后的商品数据;对预处理后的商品数据进行相似度本文档来自技高网...

【技术保护点】
1.一种商品数据的处理方法,其特征在于,包括:/n获取不同来源的原始商品数据;/n对所述原始商品数据进行统一化预处理,得到预处理后的商品数据;/n对所述预处理后的商品数据进行相似度匹配计算;/n基于所述相似度匹配计算的结果对所述预处理后的商品数据进行聚类,以使属于同一商品实体的商品数据聚合为一簇。/n

【技术特征摘要】
1.一种商品数据的处理方法,其特征在于,包括:
获取不同来源的原始商品数据;
对所述原始商品数据进行统一化预处理,得到预处理后的商品数据;
对所述预处理后的商品数据进行相似度匹配计算;
基于所述相似度匹配计算的结果对所述预处理后的商品数据进行聚类,以使属于同一商品实体的商品数据聚合为一簇。


2.根据权利要求1所述的方法,其特征在于,所述对所述原始商品数据进行统一化预处理,得到预处理后的商品数据的步骤,包括:
按照指定的数据格式对所述原始商品数据进行对齐处理,得到结构化商品数据;所述指定的数据格式包括数据字段的排列顺序;每种所述数据字段对应一种商品数据属性;
对所述结构化商品数据进行清洗处理,将清洗后的结构化商品数据作为预处理后的商品数据;其中,所述清洗处理包括以下操作中的一种或多种:冗余数据删除操作、商品属性衍生操作、商品单位统一操作和无效字符删除操作。


3.根据权利要求1所述的方法,其特征在于,所述对所述预处理后的商品数据进行相似度匹配计算的步骤,包括:
将所述预处理后的商品数据中的至少两条数据条目分别组成数据条目对,根据字符串相似度算法对所述数据条目对进行相似度匹配计算,得到每个所述数据条目对所对应的匹配相似度。


4.根据权利要求3所述的方法,其特征在于,所述根据字符串相似度算法对所述数据条目对进行相似度匹配计算的步骤,包括:
将多个所述数据条目对分配给不同的计算节点;
通过每个所述计算节点基于字符串相似度算法对接收到的所述数据条目对进行相似度匹配计算。


5.根据权利要求3所述的方法,其特征在于,所述基于所述相似度匹配计算的结果对所述预处理后的商品数据进行聚类,以使属于同一商品实体的商品数据聚合为一簇的步骤,包括:
针对所述预处理后的商品数据中的每条数据条目,基于所述相似度匹配计算的结果确定该数据条目的关联数据条目;其中,所述关联数据条目为与该数据条目的匹配相似度大于预设第一阈值的数据条目;
根据每条数据条目及其对应的关联数据条目进行数据聚类,以使属于同一商品实体的商品数据聚合为一簇。


6.根据权利要求5所述的方法,其特征在于,所述根据每条数据条目及其对应的关联数据条目进行数据聚类,以使属于同一商品实体的商品数据聚合为一簇的步骤...

【专利技术属性】
技术研发人员:高源朱禹轲
申请(专利权)人:北京迈格威科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1