This application provides a kind of product classification method, which belongs to the field of computer technology, and solves the problem of inefficient application of search, recommendation or rankings. The method includes: processing the name of the classified product based on the preset word library and determining the word pairs corresponding to each of the products to be classified, which is composed of the sequence and the normalized name of the product name corresponding to the product to be classified, and screening the normalized names in the words described. A normalized name is selected as a set of candidate product information, and the product is aggregated to a set of candidate product information according to the corresponding relationship between the products to be classified and the word. By classifying products based on the name of the product based on the presupposed lexicon, the application can be effectively classified and managed to improve the efficiency of applications such as recommendation and search.
【技术实现步骤摘要】
产品分类方法及装置,排行榜生成方法及装置,电子设备
本申请涉及计算机
,特别是涉及一种产品分类方法及装置,排行榜生成方法及装置,电子设备。
技术介绍
随着互联网应用的扩展,网络数据量增长迅速,从产品的类别到商户、乃至类别内产品的名称,数量众多。如,餐饮领域的商户、菜品,休闲娱乐领域的商户、服务项目,服装领域的商户、衣服等。为了准确、快速的在众多产品中搜索到目标产品,现有技术中通常根据商户或产品的文本描述进行文本匹配,以搜索平台上的产品,用于对用户进行展示、推荐等。然后,由于网络平台上不同商户对同一产品的文本描述或商户对自身的文本描述不规范,不同商户的相同产品之间没有直接关联,产品的搜索结果对商户的依赖性较大,导致搜索、推荐或排行等应用无法高效执行。可见,现有技术中的没有一种有效的对产品进行分类的方法,能够对全网产品进行横向管理,从而提高搜索或推荐等应用的效率。
技术实现思路
本申请提供一种产品分类方法,解决现有技术中没有对全网产品进行横向分类管理,从而导致搜索或推荐等应用的效率低下的问题。为了解决上述问题,第一方面,本申请实施例提供了一种产品分类方法包括:基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合。第二方面,本申请实施例提供了一种产品分类装置,包括:分词对确定模块,用于基于预设词库对 ...
【技术保护点】
1.一种产品分类方法,其特征在于,包括:基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合。
【技术特征摘要】
1.一种产品分类方法,其特征在于,包括:基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合;根据所述待分类产品与所述分词对的对应关系,将所述待分类产品聚合到相应候选产品信息集合。2.根据权利要求1所述的方法,其特征在于,所述预设词库包括:分词词库、核心词词库,所述基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对的步骤之前,还包括:对产品名称进行处理,确定候选分词集合;根据所述候选分词集合中分词的含义,选择相应分词加入分词词库和/或核心词词库。3.根据权利要求2所述的方法,其特征在于,所述基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对的步骤,包括:基于所述分词词库对待分类产品的名称进行分词处理,得到各待分类产品的名称中各自包含的候选分词;将同时包含在所述核心词词库中的所述候选分词确定为相应待分类产品对应的核心分词;将各待分类产品对应的核心分词按照预设顺序进行排列,得到所述待分类产品各自对应的产品名称核心词序列;将各待分类产品对应的核心分词按照在所述待分类产品的名称中出现的顺序进行排列,得到所述待分类产品各自对应的规范化名称;将同一个待分类产品对应的所述产品名称核心词序列和所述规范化名称组成分词对。4.根据权利要求3所述的方法,其特征在于,所述预设词库还包括:错别字词库,所述基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对的步骤之前,还包括:根据预设错别字种子词、所述错别字种子词对应的易错拼音,确定产品名称中的错别词,组成错别字词库;所述基于所述分词词库对待分类产品的名称进行分词处理,得到各待分类产品的名称中各自包含的候选分词的步骤之前,还包括:通过所述错别字词库对所述待分类产品的名称进行错别字修正。5.根据权利要求3所述的方法,其特征在于,所述预设词库还包括:近义词词库,所述将同时包含在所述核心词词库中的候选分词确定为核心分词的步骤之前,还包括:基于所述近义词词库对所述候选分词进行近义词转换,以规范产品名称的分词表示。6.根据权利要求1所述的方法,其特征在于,所述对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合的步骤,包括:确定每个核心词序列对应的规范化名称中覆盖产品数量最多的规范化名称作为该核心词序列对应的最优规范化名称;选择符合预设条件的最优规范化名称,作为候选产品信息集合;其中,所述预设条件包括以下至少一种:所述最优规范化名称对应的核心词序列中包含核心词词库中的至少一个产品类分词或至少两个分词、存在与所述最优规范化名称同名的待分类产品、所述最优规范化名称覆盖产品数量大于预设数值;其中,所述最优规范化名称覆盖的产品数量为该最优规范化名称对应的核心词序列对应的所有产品的数量和。7.根据权利要求1至6任一项所述的方法,其特征在于,所述对所述分词对中的规范化名称进行筛选,从中选择符合预设条件的规范化名称作为候选产品信息集合的步骤之后,还包括:确定候选产品信息集合的层级关系;将所述待分类产品聚合到相应候选产品信息集合之后,还包括:基于所述候选产品信息集合层级关系,对聚合到相应候选产品信息集合的所述待分类产品进行进一步聚合。8.根据权利要求7所述的方法,其特征在于,所述确定候选产品信息集合的层级关系的步骤,包括:对于每个所述候选产品信息集合,根据后缀词长,逐级确定其父候选产品信息集合。9.一种排行榜生成方法,其特征在于,包括:根据输入产品所属候选产品信息集合,确定所述输入产品的关联商户,其中,所述输入产品所属候选产品信息集合通过权利要求7所述的产品分类方法确定;确定所述关联商户基于产品维度和商户维度的排行指标值;根据预设加权系数对各所述维度的排行指标值进行加权运算,确定所述关联商户的综合排行指标;基于所述综合排行指标对所述关联商户进行排序,输出商户排行榜。10.根据权利要求9所述的方法,其特征在于,确定所述关联商户基于产品维度的排行指标值,包括:根据所述关联商户下所述输入产品所在候选产品信息集合,以及所述候选产品信息集合的子孙信息集合中的产品信息,确定至少部分所述产品维度的排行指标值。11.一种产品分类装置,其特征在于,包括:分词对确定模块,用于基于预设词库对待分类产品的名称进行处理,确定每个所述待分类产品对应的分词对,所述分词对由所述待分类产品对应的产品名称核心词序列和规范化名称组成;候选产...
【专利技术属性】
技术研发人员:殷瑞娟,李雪琦,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。