商品分类编码的快速识别方法、装置、电子设备及介质制造方法及图纸

技术编号:37469670 阅读:7 留言:0更新日期:2023-05-06 09:48
本申请涉及数据查询技术的领域,尤其是涉及一种商品分类编码的快速识别方法、装置、电子设备及介质。方法包括:获取待匹配商品名称,并基于待匹配商品名称,从预设数据库筛选出与待匹配商品名称对应的商品信息;基于预设商品名称字典库,将商品信息中的商品名称进行分词处理,确定关键词;确定关键词对应的关键词向量值,并基于关键词和关键词向量值,确定商品向量数据;将商品向量数据进行数据处理,确定目标商品信息,并从目标商品信息中提取出待匹配商品名称对应的商品分类编码。本申请可快速匹配到与所输入的商品名称相同或最为匹配的商品信息,并自动确定商品编码,提高工作的准确度和效率。确度和效率。确度和效率。

【技术实现步骤摘要】
商品分类编码的快速识别方法、装置、电子设备及介质


[0001]本申请涉及数据查询技术的领域,尤其是涉及一种商品分类编码的快速识别方法、装置、电子设备及介质。

技术介绍

[0002]在互联网+时代下,商品分类编码把商品生命周期内各个阶段所触发的信息自动化、无缝地连接在一起,电子商务应用商品编码实现商品数据自动采集、精准入库以及快速查找等应用模式成为必然趋势。
[0003]传统的目标商品名称对应的商品编码查询方法是通过前期相关人员将多个商品名称以及多个商品名称对应的多个商品分类编码等类别信息录入至数据库中,用户有查询需求时,首先通过模糊搜索筛选出与输入的商品名称对应的部分商品信息,之后从该部分商品信息中确定需要的商品分类编码。
[0004]而模糊搜索只能筛选出与商品名称对应的部分商品信息,且用户在查询到该类商品信息时,仍需要在该类商品信息中手动找出对应的商品分类编码,不能实现对商品分类编码的精准定位,且由于数据库的庞大,模糊搜索出来的商品信息量也会很大,确定目标商品名称对应的商品分类编码需要花费大量时间,效率低下。

技术实现思路

[0005]为了能够快速准确的确定商品分类编码,本申请提供一种商品分类编码的快速识别方法、装置、电子设备及介质。
[0006]第一方面,本申请提供一种商品分类编码的快速识别方法,采用如下的技术方案:一种商品分类编码的快速识别方法,包括:获取待匹配商品名称,并基于所述待匹配商品名称,从预设数据库筛选出与所述待匹配商品名称对应的商品信息;基于预设商品名称字典库,将所述商品信息中的商品名称进行分词处理,确定关键词;确定所述关键词对应的关键词向量值,并基于所述关键词和所述关键词向量值,确定商品向量数据;将所述商品向量数据进行数据处理,确定目标商品信息,并从所述目标商品信息中提取出所述待匹配商品名称对应的商品分类编码;所述数据处理包含分区处理。
[0007]通过采用上述技术方案,首先基于获取的待匹配商品名称,从预设数据库中筛选出与待匹配商品名称对应的商品信息,将商品信息中的商品名称基于预设商品名称字典库进行分词,以将商品名称拆分成数个关键词,之后对关键词进行算法处理来确定对应的关键字向量值,以关键词向量值作为待匹配商品名称和商品信息中的商品名称,确定商品向量数据;之后对商品向量数据进行数据处理确定目标商品信息,最后从目标商品信息中提
取待匹配商品名称所对应的商品分类编码;从而能够智能快速匹配到与待匹配商品名称对应的目标商品信息,同时自动确定商品编码,提高工作效率和准确度。
[0008]在一种可能的实现方式中,所述关键词为多个关键词,所述商品信息为多个商品信息,所述确定所述关键词对应的关键词向量值,并基于所述关键词和所述关键词向量值,确定商品向量数据,包括:计算所述多个关键词分别对应的TF值和IDF值;基于所述多个关键词分别对应的TF值和IDF值,确定所述多个关键词分别对应的权重;将所述多个关键词分别对应的权重进行标准化处理,确定关键词向量值;以所述关键词向量值作为所述待匹配商品名称和所述商品信息中的商品名称,确定商品向量数据。
[0009]通过采用上述技术方案,计算所确定的每一个关键词的TF值和IDF值,结合TF值以及IDF值确定每一个关键词的权重,之后将确定出的所有权重进行标准化处理确定出关键词向量值,随后,以关键词向量值作为待匹配商品名称和商品信息中的商品名称,确定商品向量数据,为下一步的数据处理提供基础。
[0010]在一种可能的实现方式中,所述计算所述多个关键词分别对应的TF值,包括:按下式计算所述多个关键词的TF值:
[0011]其中,表示关键词i在商品信息j中出现的频次,其中,i表示关键词的一个元素,j表示商品信息的一个元素,s表示商品信息j中所有的关键词的数量。
[0012]通过采用上述技术方案,确定出每个关键词在商品信息中出现的数量,随后,将每个关键词在商品信息中出现的数量与商品信息中所有的关键词的数量进行比值计算,确定出每个关键词在商品信息中出现的频率,即TF值。
[0013]在一种可能的实现方式中,所述计算所述多个关键词分别对应的IDF值,包括:按下式计算所述多个关键词的IDF值:
[0014]n表示关键词i在商品信息出现的总频次,表示关键词的数量,k表示商品信息的数量,表示关键词i在主要类别c
i
中的商品名称i1中出现的频次,其中,主要类别c
i
表示商品信息里占比最多的类别,表示商品名称i1在主要类别中的关键词的数量,t表示商品信息中的主要类别商品信息数量,表示关键词i在次要类别商品i2中的商品名称i1中出现的频次,其中,次要类别i2表示除主要类别c
i
外的其他类别,表示商品名称i2在次要类别中的关键词的数量,s表示商品信息中的次要类别商品信息数量。
[0015]在一种可能的实现方式中,所述基于所述多个关键词分别对应的TF值和IDF值,确定所述多个关键词分别对应的权重,包括:按下式计算所述多个关键词分别对应的权重:
[0016]其中,表示关键词的TF值,表示关键词的IDF值,表示关键词的权重。
[0017]通过采用上述技术方案,计算出的关键词的权重,可以反映出关键词的重要程度,关键词权重数值越高,表示该关键词越重要。
[0018]在一种可能的实现方式中,所述将所述多个关键词分别对应的权重进行标准化处理,确定多个关键词向量值,包括:按下式计算所述多个关键词向量值:
[0019]x表示要标准化的值,μ表示样本的平均值,S表示样本的标准差,表示关键词向量值。
[0020]通过采用上述技术方案,计算出关键词向量值,以消除权重之间的量级差异,使得更容易处理数据,提高算法的准确性。
[0021]在一种可能的实现方式中,所述方法还包括:获取历史交易数据,并提取所述历史交易数据中的类别信息;所述类别信息包括商品名称;基于所述类别信息,构建数据库;将所述类别信息中包含的所有商品名称进行分词整合,确定商品名称字典库。
[0022]通过采用上述技术方案,提取历史交易数据中的类别信息并构建数据库,之后将类别信息中包含的商品名称进行分词处理,以拆分所有商品名称的关键词,最后确定包含所有关键词的商品名称字典库,通过商品名称字典库和数据库的建立,提供大量的数据支撑,提高用户查询成功率。
[0023]第二方面,本申请提供一种商品分类编码的快速识别装置,采用如下的技术方案:一种商品分类编码的快速识别装置,包括筛选模块、关键词确定模块、向量数据确定模块以及匹配模块,其中,筛选模块,用于获取待匹配商品名称,并基于所述待匹配商品名称,从预设数据库筛选出与所述待匹配商品名称对应的商品信息;关键词确定模块,用于基于预设商品名称字典库,将所述商品信息中的商品名称进行分词处理,确定关键词;向量数据确定模块,用于确定所述关键词对应的关键词向量值,并基于所述关键词和所述关键词向量值,确定商品向量数据;匹配模块,用于将所述商品向量数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种商品分类编码的快速识别方法,其特征在于,包括:获取待匹配商品名称,并基于所述待匹配商品名称,从预设数据库筛选出与所述待匹配商品名称对应的商品信息;基于预设商品名称字典库,将所述商品信息中的商品名称进行分词处理,确定关键词;确定所述关键词对应的关键词向量值,并基于所述关键词和所述关键词向量值,确定商品向量数据;将所述商品向量数据进行数据处理,确定目标商品信息,并从所述目标商品信息中提取出所述待匹配商品名称对应的商品分类编码;所述数据处理包含分区处理。2.根据权利要求1所述的一种商品分类编码的快速识别方法,其特征在于,所述关键词为多个关键词,所述商品信息为多个商品信息,所述确定所述关键词对应的关键词向量值,并基于所述关键词和所述关键词向量值,确定商品向量数据,包括:计算所述多个关键词分别对应的TF值和IDF值;基于所述多个关键词分别对应的TF值和IDF值,确定所述多个关键词分别对应的权重;将所述多个关键词分别对应的权重进行标准化处理,确定关键词向量值;以所述关键词向量值作为所述待匹配商品名称和所述商品信息中的商品名称,确定商品向量数据。3.根据权利要求2所述的一种商品分类编码的快速识别方法,其特征在于,所述计算所述多个关键词分别对应的TF值,包括:按下式计算所述多个关键词的TF值:其中,表示所述关键词i在所述商品信息j中出现的频次,其中,i表示关键词的一个元素,j表示商品信息的一个元素,s表示所述商品信息j中所有的所述关键词的数量。4.根据权利要求2所述的一种商品分类编码的快速识别方法,其特征在于,所述计算所述多个关键词分别对应的IDF值,还包括:按下式计算所述多个关键词的IDF值:n表示关键词i在商品信息出现的总频次,表示关键词的数量,k表示商品信息的数量,表示关键词i在主要类别c
i
中的商品名称i1中出现的频次,其中,主要类别c
i
表示商品信息里占比最多的类别,表示商品名称i1在主要类别中的关键词的数量,t表示商品信息中的主要类别商品信息数量,表示关键词i在次要类别商品i2中的商品名称i1中出现的频次,其中,次要类别i2表示除主要类别c
i
外的...

【专利技术属性】
技术研发人员:王林东
申请(专利权)人:欧瑞科斯科技产业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1