关键词分类方法及系统技术方案

技术编号:9667914 阅读:87 留言:0更新日期:2014-02-14 06:21
本申请提供了一种关键词分类方法,包括以下步骤:获取待分类关键词;在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤;从预存的关联表中选取与所述待分类关键词相似的关键词;确定所述待分类关键词与所述被选取的关键词所属类别的相似度;根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。本申请还提供了一种实现前述方法的关键词分类系统。本申请的关键词分类方法及系统,能够提高关键词分类效率,从而加快系统的响应速度,减少系统运算量。

【技术实现步骤摘要】
关键词分类方法及系统
本申请涉及计算机数据处理
,特别是涉及一种关键词分类方法及系统。
技术介绍
在电子商务网站中,用户通常会通过输入关键词的方式来搜索其所需要的产品。一般情况下,用户输入的关键词通常都是单个的词或者由少数几个词组成的词组,这样可以更好的突出重点,搜索到其所需要的产品,但是因为输入的信息过少,可能导致输入的意义不明确,无法准确提供搜索结果,即可能出现大量与用户需求不相关的结果。因此,在这种情况下,往往需要事先对关键词进行分类,确定用户在输入某个关键词时,其所期望的搜索结果所属的类别,并主要展示该类别的产品,以提高搜索结果的准确性。常见的对关键词进行分类的方法包括采用人工标注或者引入用户历史数据进行分类。人工标注,即预先标注一部分关键词所属的类别,然后利用这些被标注了类别的关键词来训练一个分类器(分类模型),再利用训练好的分类器来预测未标注的关键词的类别。基于人工标注的方法,分类效果会受到标注的关键词个数的影响,若标注的较少,无法实现准确的分类,若标注的过多,则需要大量的人力和时间,效率会较低。因为电子商务网站中会预先设定每个产品所属的类别,引入用户历史数据对关键词进行分类的过程为:获取用户在进行搜索后对搜索结果的点击数据;分析搜索结果中每一个被点击的结果所属的类别;将点击率较高的类别确定为当前关键词的类别。即根据用户在利用某一关键词进行搜索后的点击行为来反推当前关键词的类别。在此过程中,需要对搜索结果中每一个被点击的结果进行分析并确定类别,然后再根据各类别被点击的次数来确定关键词的类别。当搜索结果中,被点击的结果数量较多时,因为需要逐一计算,这就增加了计算量和计算时间,同时会消耗较多的系统资源,降低了关键词分类的效率。另外,此种方法,对于出现频率较高的关键词来说,具有较好的效果,但是,对于出现频率较低或者从未出现过的关键词,因为用户点击数据较少或者甚至没有,采用此种方法往往无法对出现频率较低或者从未出现过的关键词进行分类,因此,还需要采用额外的方法,例如人工统计等方式来实现分类,这同样会影响关键词分类的效率。
技术实现思路
本申请提供一种关键词分类方法及系统,能够解决关键词分类效率较低的问题。为了解决上述问题,本申请公开了一种关键词分类方法,包括以下步骤:获取待分类关键词;在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤;从预存的关联表中选取与所述待分类关键词相似的关键词;确定所述待分类关键词与所述被选取的关键词所属类别的相似度;根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。进一步地,所述方法还包括确定预存的关联表,所述确定过程为:获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词;获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别;建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。进一步地,所述根据所述点击数据确定所述关键词所属的类别包括:确定所有被点击的结果所对应的类别;统计每一类别出现的次数;将出现次数超过分类阈值的类别确定为当前关键词的类别。进一步地,所述根据所述点击数据确定所述关键词所属的类别包括:确定所有被点击的结果所对应的类别;统计每一类别出现的次数;计算关键词与所属类别的相似度;将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。进一步地,所述选取与所述待分类关键词相似的关键词包括:计算待分类关键词与预存的关联表中每一个关键词的相似度;按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。进一步地,所述计算待分类关键词与预存的关联表中每一个关键词的相似度包括:确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度;确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度;确定当前类别与所述待分类关键词的文字内容相似度;根据前述三者确定所述待分类关键词与当前类别的相似度。进一步地,所述根据所述查询数据选取查询次数超过查询阈值的关键词之后还包括对选取的关键词进行扩展,所述扩展包括:获取所述关键词的用户历史点击数据;从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词;将所述提取的关键词作为扩展关键词。进一步地,所述根据所述点击数据确定所述关键词所属的类别之后还包括对确定的类别进行扩展,所述扩展包括:获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目;提取每一个条目所属的类别;将提取的类别作为扩展类别。进一步地,所述根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别包括:根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别;和/或将相似度值超过预定值的类别作为待分类关键词所属的类别。本申请还公开了一种关键词分类系统,包括:待分类关键词获取模块,用于获取待分类关键词;关键词匹配模块,用于在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则将查询结果传递给关键词选取模块;关键词选取模块,用于从预存的关联表中选取与所述待分类关键词相似的关键词;相似度确定模块,用于确定所述待分类关键词与所述被选取的关键词所属类别的相似度;关键词类别确定模块,用于根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。进一步地,所述系统还包括关联表确定模块,用于确定预存的关联表,所述关联表确定模块包括:用户历史查询数据获取单元,用于获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词;用户历史点击数据获取单元,用于获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别;关联表建立单元,用于建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。进一步地,所述用户历史点击数据获取单元包括:类别确定子单元,用于确定所有被点击的结果所对应的类别;次数统计子单元,用于统计每一类别出现的次数;类别确定子单元,用于将出现次数超过分类阈值的类别确定为当前关键词的类别。进一步地,所述用户历史点击数据获取单元包括:类别确定子单元,用于确定所有被点击的结果所对应的类别;次数统计子单元,用于统计每一类别出现的次数;相似度计算子单元,用于计算关键词与所属类别的相似度;类别确定子单元,用于将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。进一步地,所述关键词选取模块包括:相似度值计算单元,用于计算待分类关键词与预存的关联表中每一个关键词的相似度;选取单元,用于按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。进一步地,所述相似度值计算单元包括:平均相本文档来自技高网
...
关键词分类方法及系统

【技术保护点】
一种关键词分类方法,其特征在于,包括以下步骤:获取待分类关键词;在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤;从预存的关联表中选取与所述待分类关键词相似的关键词;确定所述待分类关键词与所述被选取的关键词所属类别的相似度;根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。

【技术特征摘要】
1.一种关键词分类方法,其特征在于,包括以下步骤:获取待分类关键词;在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关键词关联的类别确定为所述待分类关键词的类别,反之,则进行下一步骤;从预存的关联表中选取与所述待分类关键词相似的关键词;确定所述待分类关键词与所述被选取的关键词所属类别的相似度;根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别。2.如权利要求1所述的关键词分类方法,其特征在于,所述方法还包括确定预存的关联表,所述确定过程为:获取用户历史查询数据,根据所述查询数据选取查询次数超过查询阈值的关键词;获取所述关键词的用户历史点击数据,根据所述点击数据确定所述关键词所属的类别;建立关联表,将所述关键词与其所属的类别的关联关系记载在关联表中。3.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述点击数据确定所述关键词所属的类别包括:确定所有被点击的结果所对应的类别;统计每一类别出现的次数;将出现次数超过分类阈值的类别确定为当前关键词的类别。4.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述点击数据确定所述关键词所属的类别包括:确定所有被点击的结果所对应的类别;统计每一类别出现的次数;计算关键词与所属类别的相似度;将出现次数超过分类阈值且相似度超过相似阈值的类别确定为当前关键词的类别。5.如权利要求1所述的关键词分类方法,其特征在于,所述选取与所述待分类关键词相似的关键词包括:计算待分类关键词与预存的关联表中每一个关键词的相似度;按照相似度值从大到小的顺序选取排在前面预定数量的关键词作为与所述待分类关键词相似的关键词,或者选取相似度值超过相似阈值的关键词作为与所述待分类关键词相似的关键词。6.如权利要求5所述的关键词分类方法,其特征在于,所述计算待分类关键词与预存的关联表中每一个关键词的相似度包括:确定当前类别与所述被选取的关键词中其所对应的所有关键词的平均相似度;确定当前类别与所述被选取的关键词中其所对应的所有关键词的最大相似度;确定当前类别与所述待分类关键词的文字内容相似度;根据所述平均相似度、最大相似度和文字内容相似度确定所述待分类关键词与当前类别的相似度。7.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述查询数据选取查询次数超过查询阈值的关键词之后还包括对选取的关键词进行扩展,所述扩展包括:获取所述关键词的用户历史点击数据;从历史点击数据中提取每一个被点击的搜索结果中所包含的关键词;将所述提取的关键词作为扩展关键词。8.如权利要求2所述的关键词分类方法,其特征在于,所述根据所述点击数据确定所述关键词所属的类别之后还包括对确定的类别进行扩展,所述扩展包括:获取当前类别下电子商务网站卖家所发布的商品展示条目中被用户点击的条目;提取每一个条目所属的类别;将提取的类别作为扩展类别。9.如权利要求1所述的关键词分类方法,其特征在于,所述根据所述待分类关键词与所述被选取的关键词所属类别的相似度确定所述待分类关键词的类别包括:根据相似度对各类别进行排序,将排在前面预定数量的类别作为待分类关键词所属的类别;和/或将相似度值超过预定值的类别作为待分类关键词所属的类别。10.一种关键词分类系统,其特征在于,包括:待分类关键词获取模块,用于获取待分类关键词;关键词匹配模块,用于在预存的关联表中查询是否存在与所述待分类关键词匹配的关键词,若是,则将所述预存的关联表中与所述关...

【专利技术属性】
技术研发人员:顾湘余黄云平郭宁
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1