一种产品识别的方法和装置制造方法及图纸

技术编号:34951556 阅读:11 留言:0更新日期:2022-09-17 12:28
本发明专利技术公开了一种产品识别的方法和装置,涉及电商风险管理技术领域。该方法的一具体实施方式包括:对待识别产品的产品名称进行文本相似度计算以得到相似产品集合,相似产品集合包括相似度分数大于预设分数阈值的产品;基于预先标注的专家知识库,对相似产品集合中各产品的产品名称提取产品特征序列;将相似产品集合中产品特征序列相同的产品识别为相同产品。该实施方式能够提高产品识别的准确率和产品归一化的结果质量,从而提升基于产品归一化结果的产品风险管理的效果。果的产品风险管理的效果。果的产品风险管理的效果。

【技术实现步骤摘要】
一种产品识别的方法和装置


[0001]本专利技术涉及电商风险管理
,尤其涉及一种产品识别的方法和装置。

技术介绍

[0002]在商品的管理和分析中需要对商品进行商品归一化,目前在商品归一化领域大都是基于短文本相似度算法计算两文本的相似度,然后提取一定阈值内的数据就识别为同一商品实体。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]产品识别的准确率低,产品归一化的结果质量较低,从而基于产品归一化结果的产品风险管理的效果差。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种产品识别的方法和装置,能够提高产品识别的准确率和产品归一化的结果质量,从而提升基于产品归一化结果的产品风险管理的效果。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种产品识别的方法。
[0007]一种产品识别的方法,包括:对待识别产品的产品名称进行文本相似度计算以得到相似产品集合,所述相似产品集合包括相似度分数大于预设分数阈值的产品;基于预先标注的专家知识库,对所述相似产品集合中各所述产品的产品名称提取产品特征序列;将所述相似产品集合中产品特征序列相同的产品识别为相同产品。
[0008]可选地,所述对待识别产品的产品名称进行文本相似度计算,包括:对每两个待识别产品,基于文本相似度算法,生成所述两个待识别产品的产品名称相似值和产品名称总和值,所述产品名称相似值为所述两个待识别产品的产品名称中相同字符的个数,所述产品名称总和值为所述两个待识别产品的产品名称包含的字符个数之和;根据所述产品名称相似值和所述产品名称总和值进行文本相似度计算。
[0009]可选地,所述待识别产品属于同一类目,所述基于预先标注的专家知识库,对所述相似产品集合中各所述产品的产品名称提取产品特征序列之前,包括:按照所述待识别产品所属的类目,确定与所述类目对应的特征维度;获取所述类目下产品的产品名称样本,基于所述特征维度对所述产品名称样本进行特征关键词提取,并通过提取的特征关键词生成与所述类目对应的专家知识库。
[0010]可选地,所述基于预先标注的专家知识库,对所述相似产品集合中各所述产品的产品名称提取产品特征序列,包括:基于预先标注的专家知识库,对于每一所述产品,提取所述产品的产品名称中存在的所有特征关键词,并通过所述产品名称中存在的所有特征关键词生成所述产品的产品特征序列。
[0011]可选地,所述将所述相似产品集合中产品特征序列相同的产品识别为相同产品之后,还包括:为所述相同产品生成归一化编码,并建立所述相同产品和所述归一化编码之间的对应关系;对每个归一化编码,获取所述归一化编码对应的所有产品的产品信息,并根据
所述产品信息计算产品异常指标;按照预设的风险识别规则,基于所述产品异常指标,对所述归一化编码下的所有产品进行风险识别。
[0012]可选地,所述产品信息包括采购价格和销售价格,所述产品异常指标包括最大采购价格、最小采购价格、平均采购价格中、最大销售价格、最小销售价格和平均采购价格中的一种或多种。
[0013]根据本专利技术实施例的另一方面,提供了一种产品识别的装置。
[0014]一种产品识别的装置,包括:相似产品集合确定模块,用于对待识别产品的产品名称进行文本相似度计算以得到相似产品集合,所述相似产品集合包括相似度分数大于预设分数阈值的产品;产品特征序列提取模块,用于基于预先标注的专家知识库,对所述相似产品集合中各所述产品的产品名称提取产品特征序列;产品识别模块,用于将所述相似产品集合中产品特征序列相同的产品识别为相同产品。
[0015]可选地,所述相似产品集合确定模块还用于:对每两个待识别产品,基于文本相似度算法,生成所述两个待识别产品的产品名称相似值和产品名称总和值,所述产品名称相似值为所述两个待识别产品的产品名称中相同字符的个数,所述产品名称总和值为所述两个待识别产品的产品名称包含的字符个数之和;根据所述产品名称相似值和所述产品名称总和值进行文本相似度计算。
[0016]可选地,所述待识别产品属于同一类目,所述装置还包括专家知识库生成模块,用于:按照所述待识别产品所属的类目,确定与所述类目对应的特征维度;获取所述类目下产品的产品名称样本,基于所述特征维度对所述产品名称样本进行特征关键词提取,并通过提取的特征关键词生成与所述类目对应的专家知识库。
[0017]可选地,所述产品特征序列提取模块还用于:基于预先标注的专家知识库,对于每一所述产品,提取所述产品的产品名称中存在的所有特征关键词,并通过所述产品名称中存在的所有特征关键词生成所述产品的产品特征序列。
[0018]可选地,还包括风险识别模块,用于:为所述相同产品生成归一化编码,并建立所述相同产品和所述归一化编码之间的对应关系;对每个归一化编码,获取所述归一化编码对应的所有产品的产品信息,并根据所述产品信息计算产品异常指标;按照预设的风险识别规则,基于所述产品异常指标,对所述归一化编码下的所有产品进行风险识别。
[0019]可选地,所述产品信息包括采购价格和销售价格,所述产品异常指标包括最大采购价格、最小采购价格、平均采购价格中、最大销售价格、最小销售价格和平均采购价格中的一种或多种。
[0020]根据本专利技术实施例的又一方面,提供了一种电子设备。
[0021]一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本专利技术实施例所提供的产品识别的方法。
[0022]根据本专利技术实施例的又一方面,提供了一种计算机可读介质。
[0023]一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例所提供的产品识别的方法。
[0024]上述专利技术中的一个实施例具有如下优点或有益效果:通过对待识别产品的产品名称进行文本相似度计算以得到相似产品集合,相似产品集合包括相似度分数大于预设分数
阈值的产品;基于预先标注的专家知识库,对相似产品集合中各产品的产品名称提取产品特征序列;将相似产品集合中产品特征序列相同的产品识别为相同产品的技术方案,能够提高产品识别的准确率和产品归一化的结果质量,从而提升基于产品归一化结果的产品风险管理的效果。
[0025]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0026]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0027]图1是根据本专利技术一个实施例的产品识别的方法的主要步骤示意图;
[0028]图2是根据本专利技术一个实施例的产品识别的方法的流程示意图;
[0029]图3是根据本专利技术一个实施例的产品识别的装置的主要模块示意图;
[0030]图4是本专利技术实施例可以应用于其中的示例性系统架构图;
[0031]图5是适于用来实现本专利技术实施例的终本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种产品识别的方法,其特征在于,包括:对待识别产品的产品名称进行文本相似度计算以得到相似产品集合,所述相似产品集合包括相似度分数大于预设分数阈值的产品;基于预先标注的专家知识库,对所述相似产品集合中各所述产品的产品名称提取产品特征序列;将所述相似产品集合中产品特征序列相同的产品识别为相同产品。2.根据权利要求1所述的方法,其特征在于,所述对待识别产品的产品名称进行文本相似度计算,包括:对每两个待识别产品,基于文本相似度算法,生成所述两个待识别产品的产品名称相似值和产品名称总和值,所述产品名称相似值为所述两个待识别产品的产品名称中相同字符的个数,所述产品名称总和值为所述两个待识别产品的产品名称包含的字符个数之和;根据所述产品名称相似值和所述产品名称总和值进行文本相似度计算。3.根据权利要求1所述的方法,其特征在于,所述待识别产品属于同一类目,所述基于预先标注的专家知识库,对所述相似产品集合中各所述产品的产品名称提取产品特征序列之前,包括:按照所述待识别产品所属的类目,确定与所述类目对应的特征维度;获取所述类目下产品的产品名称样本,基于所述特征维度对所述产品名称样本进行特征关键词提取,并通过提取的特征关键词生成与所述类目对应的专家知识库。4.根据权利要求3所述的方法,其特征在于,所述基于预先标注的专家知识库,对所述相似产品集合中各所述产品的产品名称提取产品特征序列,包括:基于预先标注的专家知识库,对于每一所述产品,提取所述产品的产品名称中存在的所有特征关键词,并通过所述产品名称中存在的所有特征关键词生成所述产品的产品特征序列。5.根据权利要求1所述的方法,其特征在于,所述将所述相似产品集合中产品特征序列相同的产品识别为相同产品之后,还包括:为所述相同产品生成归一化编码,并建立所述相同产品和所述...

【专利技术属性】
技术研发人员:白正同赵旭玲
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1