一种商品名称的合并处理方法技术

技术编号:37325563 阅读:10 留言:0更新日期:2023-04-21 23:04
本发明专利技术涉及数据处理技术领域,尤其涉及一种商品名称的合并处理方法,首先建立标准商品表,然后将多数据源的商品映射到标准商品表上完成商品信息治理。本发明专利技术的方法不仅准确率高,而且提高了商品治理的效率,应用场景广泛,为商品名称合并提供了有效的指导。为商品名称合并提供了有效的指导。为商品名称合并提供了有效的指导。

【技术实现步骤摘要】
一种商品名称的合并处理方法


[0001]本专利技术涉及数据处理
,尤其涉及一种商品名称的合并处理方法。

技术介绍

[0002]在快消领域中,商品数量庞大,商品覆盖的领域从食品饮料到烟酒类再到日化用品,范围广泛,而商品本身的展示出的信息又比较简短,这就对商品信息治理提出了强大的挑战。
[0003]商品治理是为经销商,品牌商提供数据服务的基础。对于经销商,标准的商品数据可以为他们在商品开档时提供准确且一致的信息,方便管理;经销商之间的经营数据可以帮助经销商横向比对相同商品在不同的销售渠道,不同的销售地区与其他经销商的差异,从而帮助经销商节省成本,开拓市场,提高销量。对于品牌商乃至各个行业,商品治理是对于整个行业内部知识的一个联通和汇总,是对商品从品牌,经销商,门店流通中生成建议与策略的基础。
[0004]在此之前,商品治理中主要采用的方法基于聚类的概念,即将经销商商品库内关键词相似度较高的商品聚在一起生成标准商品。然而这种方法存在的弊端主要有两个,准确率较低和效率较低。第一个准确率较低是由于经销商维护的商品名称存在多样性,聚类的方法很难将不同表达形式的同一个商品准确的聚合到一起,例如“雪花啤酒纯生匠心营造500ml 8度”和“雪花啤酒金纯500ml 8度”是同一个商品,但由于关键词不同就无法聚到一起,而“雪花啤酒纯生匠心营造500ml 8度”和“雪花啤酒匠心营造500ml 8度”由于关键词相似,反而会被错误的归到一起。第二个效率较低是由于在庞大的商品量需要计算关键词出现的频率并进行比对。

技术实现思路

[0005]本专利技术提供了一种商品名称的合并处理方法,使得商品治理更加准确和快速。
[0006]为了实现本专利技术的目的,所采用的技术方案是:一种商品名称的合并处理方法,首先建立标准商品表,然后将多数据源的商品映射到标准商品表上完成商品信息治理。
[0007]作为本专利技术的优化方案,建立标准商品表,包括如下步骤:
[0008]A、获取作为标准商品表的商品信息数据;
[0009]B、提取商品知识:将商品信息数据的商品属性信息分为结构化属性信息和非结构化属性信息,提取商品标签,进行标签词分类;
[0010]C、商品知识融合:融合商品标签,进行人工校验,生成标准商品表。
[0011]作为本专利技术的优化方案,商品信息数据包括正向标注数据、国家商品信息网数据、电商平台数据和极速数据。
[0012]作为本专利技术的优化方案,通过新词发现算法对非结构化属性信息进行知识提取,新词发现算法按照词语左右邻字丰富度和词语内部的凝固度组成新词;
[0013]词语左右邻字丰富度由信息熵来量化:
[0014][0015]其中:w为字符组合,w
n
为字符组合的组成成分,P(w
n
|w)为字符组合中字符组合的组成成分出现的概率;
[0016]词语内部的凝固度:
[0017][0018]其中:p(w)为字符组合出现的概率,p(w
n
)为字符组合的组成成分出现的概率。
[0019]作为本专利技术的优化方案,将多数据源映射到标准商品表,包括如下步骤:
[0020]a、提取多源商品属性:
[0021]b、召回:对非结构化属性信息数据与标准商品进行相似度的比较和筛选,召回所有待映射非标准商品相似度达到阈值的同品牌的所有标准商品;
[0022]c、排序:对所有召回的标准商品排序,选取符合所需的商品属性的条件以及相似度最高的标准商品建立映射关系。
[0023]作为本专利技术的优化方案,在步骤a之前,以多数据源的商品信息中是否含有商品条形码barcode对待映射商品进行划分。
[0024]本专利技术具有积极的效果:本专利技术通过建立标准商品表,然后将多数据源的商品映射到标准商品表上完成商品信息治理,不仅准确率高,而且提高了商品治理的效率,应用场景广泛,为商品名称合并提供了有效的指导。
附图说明
[0025]下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0026]图1是本专利技术建立标准商品表的流程示意图;
[0027]图2是提取商品知识的结构示意图;
[0028]图3是建立标准商品表与不同数据源信息映射关系的流程示意图。
具体实施方式
[0029]本专利技术公开了一种商品名称的合并处理方法,首先建立标准商品表,然后将多数据源的商品映射到标准商品表上完成商品信息治理。以多源信息(多数据源的商品信息)中是否含有商品条形码(barcode)对待映射商品进行划分。商品条形码是一个商品的特有标识,因此在建立不同数据源到标准商品的映射关系时我们可以利用商品条形码进行关联。
[0030]为了适应不同业务的不同应用场景,提出了标准商品的概念。这是因为在商品流通的链路各个阶段中存在对同一个商品的描述不一致的情况,而标准商品是描述商品本身客观事实的抽象概念,与商品信息数据来源例如销售渠道,销售方,采购方均无关。标准商品就是统一和融合不同数据来源的商品信息。
[0031]定义一个标准商品是需要包涵可以描述该商品且可以区分该商品与其他商品的所有必要属性。从商品知识的角度上,将一个标准商品的必要属性分为普通属性和品牌品类特有属性,例如对于一个啤酒品类的标准商品,需要普通属性包括品牌,品类,规格,系
列,包装,保质期,产地等信息,品牌品类特有属性则为酒精度数,麦芽浓度等。
[0032]如图1所示,建立标准商品表,包括如下三个部分:
[0033]A、获取作为标准商品表的商品信息数据;
[0034]B、提取商品知识:将商品信息数据的商品属性信息分为结构化属性信息和非结构化属性信息,提取商品标签,进行标签词分类;
[0035]C、商品知识融合:融合商品标签,进行人工校验,生成标准商品表。
[0036]在建设标准商品表的过程之初,选取置信度较高且一致度较高的品牌电商旗舰店获取电商平台数据,国家商品信息网数据(条码、商品行业标准等),极速数据(极速数据提供包括获取发票信息、获取企业工商信息等各类接口数据)及正向标注的数据(指给原始数据(如图像、视频、文本、音频)添加标签的数据)作为标准商品表的商品信息数据来源基础。
[0037]将商品属性信息分为结构化属性信息和非结构化属性信息,方便分别进行处理和提取商品各属性。
[0038]如图2所示,1)对于商品的规格,酒精度数和包装等结构化属性信息,直接用数字和商品属性单位的组合的固定规则模式进行提取。
[0039]2)对于商品的系列,口味等非结构化信息,首先用新词发现的手段建立基于品牌维度特有词典,再用专有词典对品牌专有的非结构化的商品信息进行分词提取。
[0040]在快消领域,品牌的系列词和口味词往往是由品牌为了区分商品创建的具有一定辨识度的无固定结构的专有名词,例如“勇闯天涯”,勇闯天涯superx”,“大波浪”。为了将这些专有名词提取,采用新词发现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种商品名称的合并处理方法,其特征在于:首先建立标准商品表,然后将多数据源的商品映射到标准商品表上完成商品信息治理。2.根据权利要求1所述的一种商品名称的合并处理方法,其特征在于:建立标准商品表,包括如下步骤:A、获取作为标准商品表的商品信息数据;B、提取商品知识:将商品信息数据的商品属性信息分为结构化属性信息和非结构化属性信息,提取商品标签,进行标签词分类;C、商品知识融合:融合商品标签,进行人工校验,生成标准商品表。3.根据权利要求2所述的一种商品名称的合并处理方法,其特征在于:商品信息数据包括正向标注数据、国家商品信息网数据、电商平台数据和极速数据。4.根据权利要求2所述的一种商品名称的合并处理方法,其特征在于:通过新词发现算法对非结构化属性信息进行知识提取,新词发现算法按照词语左右邻字丰富度和词语内部的凝固度组成新词;词语左右邻字丰富度由信息熵来量化:其中:w为字符组...

【专利技术属性】
技术研发人员:潘坤苏海萍王妹刘思捷
申请(专利权)人:舟谱数据技术南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1