一种商品信息批量处理分析方法、装置和设备制造方法及图纸

技术编号:24499692 阅读:61 留言:0更新日期:2020-06-13 04:32
本申请公开了一种商品信息批量处理分析方法、装置和设备,基于爬虫爬取品类数据,利用预置数据维护规则和阈值品类清洗码表对获取到的预置商品数据进行维护和清洗,基于SPU下不同SKU数量类型的匹配规则,在保证数据丢失率在可控范围内,将数据处理对象落地到SKU量级,计算品类核心指标,并对目标商品数据进行清洗和优化输出,解决了现有的品类分析需要借助人工清洗、分拣及归类,及专业分析师的经验判断来输出对应的属性分析结果,不仅成本高,耗时长,且无法即时获取数据信息结果,数据的精确度不能满足研发策略对数据高契合度高精准度要求的技术问题。

A method, device and equipment for batch processing and analysis of commodity information

【技术实现步骤摘要】
一种商品信息批量处理分析方法、装置和设备
本申请涉及互联网商品信息处理
,尤其涉及一种商品信息批量处理分析方法、装置和设备。
技术介绍
随着互联网的快速发展,人们已经可以很便捷地通过计算机、智能手机和平板电脑等网络设备途径购买商品并对商品进行评价。关于商家的商品,通常通过SPU和SKU来进行描述,SPU(StandardProductUnit,标准化产品单元)是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。SKU(StockkeepingUnit,库存保有单位)是对每一个产品和服务的唯一标示符。不同品类的数据属性和指标维度会存在差异,目前涉及品类分析特别是非标品的分析更多需要借助人工清洗、分拣及归类,及专业分析师的经验判断来输出对应的属性分析结果,不仅成本高,耗时长,且无法即时获取数据信息结果,数据的精确度不能满足研发策略对数据高契合度高精准度要求。
技术实现思路
本申请提供了一种商品信息批量处理分析方法、装置和设备,用于解决现有的品类分析需要借助人工清洗、分拣及归类,及专业分析师的经验判断来输出对应的属性分析结果,不仅成本高,耗时长,且无法即时获取数据信息结果,数据的精确度不能满足研发策略对数据高契合度高精准度要求的技术问题。有鉴于此,本申请第一方面提供了一种商品信息批量处理分析方法,包括:通过网络爬虫爬取预置商品数据,所述预置商品数据包括预置商品的SPU信息和SKU评论信息;根据预置数据维护规则和预置品类清洗码表对所述预置商品数据进行数据维护和第一数据清洗,得到目标商品数据;提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联;当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算;根据预置商品属性码表对所述目标商品数据进行第二数据清洗,所述预置商品属性码表包括所述SPU信息、SKU信息和所述品类核心指标;将完成所述第二数据清洗后的目标商品数据按预置输出方式输出。可选地,所述提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联,包括:提取所述目标商品数据中的SPU信息和SKU评论信息;根据所述SKU评论信息中的SKU名称将所述SKU评论信息与所述SPU信息进行匹配关联。可选地,所述当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算,之前还包括:若所述SPU信息下的所述SKU评论信息的数量不超过预置数量,则品类SPU总销量等于SKU总销量;若所述SPU信息下的所述SKU评论信息的数量超过所述预置数量,则计算所述品类内所有SKU总销量与SPU总销量的匹配率。可选地,所述阈值为70%。可选地,所述预置数据维护规则包括:SPU更新频次为每周一次;各品类销量排名前20的SPU评论保持每天更新一次,排名20后的SPU评论保持每周更新一次;保留当前数据节点往前递推3个月内的SKU评论信息。可选地,所述核心指标包括品类的规格价格和规格销售量;所述规格价格=SKU价格/SKU规格值*单位数;所述规格销售量=SKU销售量*SKU规格值。本申请第二方面提供了一种商品信息批量处理分析装置,包括:数据获取模块,用于通过网络爬虫爬取预置商品数据,所述预置商品数据包括预置商品的SPU信息和SKU评论信息;第一数据清洗模块,用于根据预置数据维护规则和预置品类清洗码表对所述预置商品数据进行数据维护和第一数据清洗,得到目标商品数据;关联模块,用于提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联;指标计算模块,用于当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算;第二数据清洗模块,用于根据预置商品属性码表对所述目标商品数据进行第二数据清洗,所述预置商品属性码表包括所述SPU信息、SKU信息和所述品类核心指标;输出模块,用于将完成所述第二数据清洗后的目标商品数据按预置输出方式输出。可选地,所述关联模块具体用于:提取所述目标商品数据中的SPU信息和SKU评论信息;根据所述SKU评论信息中的SKU名称将所述SKU评论信息与所述SPU信息进行匹配关联。可选地,还包括判断模块;所述判断模块,用于:若所述SPU信息下的所述SKU评论信息的数量不超过预置数量,则品类SPU总销量等于SKU总销量;若所述SPU信息下的所述SKU评论信息的数量超过所述预置数量,则计算所述品类内所有SKU总销量与SPU总销量的匹配率。本申请第三方面提供了一种商品信息批量处理分析设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的商品信息批量处理分析方法。从以上技术方案可以看出,本申请实施例具有以下优点:本申请中,提供了一种商品信息批量处理分析方法,包括:通过网络爬虫爬取预置商品数据,预置商品数据包括预置商品的SPU信息和SKU评论信息;根据预置数据维护规则和预置品类清洗码表对预置商品数据进行数据维护和第一数据清洗,得到目标商品数据;提取目标商品数据中的SPU信息和SKU评论信息,将SPU信息与SKU评论信息进行匹配关联;当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据SPU信息和SKU评论信息进行品类核心指标计算;根据预置商品属性码表对目标商品数据进行第二数据清洗,预置商品属性码表包括SPU信息、SKU信息和品类核心指标;将完成第二数据清洗后的目标商品数据按预置输出方式输出。本申请提供的商品信息批量处理分析方法,基于爬虫爬取品类数据,利用预置数据维护规则和阈值品类清洗码表对获取到的预置商品数据进行维护和清洗,基于SPU下不同SKU数量类型的匹配规则,在保证数据丢失率在可控范围内,将数据处理对象落地到SKU量级,计算品类核心指标,并对目标商品数据进行清洗和优化输出,解决了现有的品类分析需要借助人工清洗、分拣及归类,及专业分析师的经验判断来输出对应的属性分析结果,不仅成本高,耗时长,且无法即时获取数据信息结果,数据的精确度不能满足研发策略对数据高契合度高精准度要求的技术问题。附图说明图1为本申请实施例中提供的一种商品信息批量处理分析方法是一个流程示意图;图2为本申请实施例中的一种目标商品数据输出方式的示意图;图3为本申请实施例中提供的一种商品信息批量处理分析装置的一个结构示意图。具体实施方式为了使本
的人员更好地本文档来自技高网
...

【技术保护点】
1.一种商品信息批量处理分析方法,其特征在于,包括:/n通过网络爬虫爬取预置商品数据,所述预置商品数据包括预置商品的SPU信息和SKU评论信息;/n根据预置数据维护规则和预置品类清洗码表对所述预置商品数据进行数据维护和第一数据清洗,得到目标商品数据;/n提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联;/n当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算;/n根据预置商品属性码表对所述目标商品数据进行第二数据清洗,所述预置商品属性码表包括所述SPU信息、SKU信息和所述品类核心指标;/n将完成所述第二数据清洗后的目标商品数据按预置输出方式输出。/n

【技术特征摘要】
1.一种商品信息批量处理分析方法,其特征在于,包括:
通过网络爬虫爬取预置商品数据,所述预置商品数据包括预置商品的SPU信息和SKU评论信息;
根据预置数据维护规则和预置品类清洗码表对所述预置商品数据进行数据维护和第一数据清洗,得到目标商品数据;
提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联;
当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算;
根据预置商品属性码表对所述目标商品数据进行第二数据清洗,所述预置商品属性码表包括所述SPU信息、SKU信息和所述品类核心指标;
将完成所述第二数据清洗后的目标商品数据按预置输出方式输出。


2.根据权利要求1所述的商品信息批量处理分析方法,其特征在于,所述提取所述目标商品数据中的SPU信息和SKU评论信息,将所述SPU信息与所述SKU评论信息进行匹配关联,包括:
提取所述目标商品数据中的SPU信息和SKU评论信息;
根据所述SKU评论信息中的SKU名称将所述SKU评论信息与所述SPU信息进行匹配关联。


3.根据权利要求2所述的商品信息批量处理分析方法,其特征在于,所述当品类内所有SKU总销量与SPU总销量的匹配率超过阈值时,根据所述SPU信息和所述SKU评论信息进行品类核心指标计算,之前还包括:
若所述SPU信息下的所述SKU评论信息的数量不超过预置数量,则品类SPU总销量等于SKU总销量;
若所述SPU信息下的所述SKU评论信息的数量超过所述预置数量,则计算所述品类内所有SKU总销量与SPU总销量的匹配率。


4.根据权利要求1所述的商品信息批量处理分析方法,其特征在于,所述阈值为70%。


5.根据权利要求1所述的商品信息批量处理分析方法,其特征在于,所述预置数据维护规则包括:
SPU更新频次为每周一次;
各品类销量排名前20的SPU评论保持每天更新一次,排名20后的SPU评论保持每周更新一次;
保留当前数据节点往前递推3个月内的SKU评论信息。


6....

【专利技术属性】
技术研发人员:张向丽李知之
申请(专利权)人:名创优品横琴企业管理有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1