关键词的分类方法及装置制造方法及图纸

技术编号:11188086 阅读:58 留言:0更新日期:2015-03-25 16:54
本发明专利技术公开了一种关键词的分类方法及装置。其中,关键词的分类方法包括:对关键词进行划分,得到关键词的构词成分;提取构词成分中的多个构词要件;查询每个构词要件所归属的预设类别,得到多个归属类别;计算每个归属类别的概率,得到多个归属概率;确定多个归属概率中的最大概率所表示的类别为关键词的类别。通过本发明专利技术,解决了现有技术中确定关键词类型的精度比较低的问题,进而达到了提高关键词类型确定准确度的效果。

【技术实现步骤摘要】
关键词的分类方法及装置
本专利技术涉及数据处理领域,具体而言,涉及一种关键词的分类方法及装置。
技术介绍
搜索引擎关键词是用户在使用搜索引擎时输入的关键词。每个关键词都代表了用 户的一个需求。对海量用户关键词的分类有助于剖析群体的需求分布。现有的搜索关键词 分类方法有两种,一种是基于访问路径的分类方法,另一种是基于形式的分类方法。 基于访问路径的分类方法基于一种假设,即在搜索引擎中多次发起的查询 (Query)关键词具有相似性。具体方式是记录一个会话(Session)中用户的所有查询关键 词,记录每个关键词的相关词以及共同出现在一个会话中的频次,为所有会话重复统计相 关关键词,最终实现聚类。 基于访问路径的会话的假设存在一定问题,一次会话的所有查询关键词不一定均 是相似的,有可能是相关的,因此该方法聚类得到的关键词大多为相关的,不一定是相似 的;关键词类别多为事件性的,不易于分析用户需求。 基于字符串形式的分类以字符串的字符重合度为分类指标,分别计算字符串的交 集和并集,再以交集和并集的比值确定是否归为一类,如果归为一类,则以两个字符串的并 集作为该类的字符串继续比较,否则单独建立一类,以完成分类。 基于字符串的分类没有考虑查询关键词的词语关系,简单的字符切分会导致大量 错误的产生,分类效果较差。 针对相关技术中确定关键词类型的精度比较低的问题,目前尚未提出有效的解决 方案。
技术实现思路
本专利技术的主要目的在于提供一种关键词的分类方法及装置,以解决现有技术中确 定关键词类型的精度比较低的问题。 为了实现上述目的,根据本专利技术的一个方面,提供了一种关键词的分类方法。 根据本专利技术的关键词的分类方法包括:对所述关键词进行划分,得到所述关键词 的构词成分;提取所述构词成分中的多个构词要件;查询每个所述构词要件所归属的预设 类别,得到多个归属类别;计算每个所述归属类别的概率,得到多个归属概率;以及确定所 述多个归属概率中的最大概率所表示的类别为所述关键词的类别。 进一步地,在计算每个所述归属类别的概率,得到多个归属概率之前,所述分类方 法还包括:接收每个所述构词要件的权重赋值,其中,计算每个所述归属类别的概率,得到 多个归属概率包括:按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计 算每个所述归属类别的概率,得到多个归属概率。 进一步地,按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计 算每个所述归属类别的概率,得到多个归属概率包括:按照公式 /-1 计算每个所述归属类别的概率,得到所述多个归属概率,其中,P (B」Ai)为构词要件Ai归属 于归属类别h的预设概率,Qi为构词要件Ai的权重赋值,V (Bp为所述归属类别&的概率, j依次取1至m,η为所述构词要件的数量,m为所述归属类别的数量。 进一步地,Qk+1 > Qk,其中,k依次取1至n-1。 进一步地,在对所述关键词进行划分,得到所述关键词的构词成分之前,所述分类 方法还包括:设定所述预设类别;以及设定归属于所述预设类别的构词要件。 为了实现上述目的,根据本专利技术的另一方面,提供了一种关键词的分类装置。 根据本专利技术的关键词的分类装置包括:划分单元,用于对所述关键词进行划分,得 到所述关键词的构词成分;提取单元,用于提取所述构词成分中的多个构词要件;查询单 元,用于查询每个所述构词要件所归属的预设类别,得到多个归属类别;计算单元,用于计 算每个所述归属类别的概率,得到多个归属概率;以及确定单元,用于确定所述多个归属概 率中的最大概率所表示的类别为所述关键词的类别。 进一步地,所述分类方法还包括:接收单元,用于在计算每个所述归属类别的概 率,得到多个归属概率之前,接收每个所述构词要件的权重赋值,其中,所述计算单元包括: 计算子单元,用于按照每个所述构词要件的权重赋值和每个所述构词要件的归属类别计算 每个所述归属类别的概率,得到多个归属概率。 进一步地,所述计算子单元包括:计算模块,用于按照公式 计算每个所述归属类别的概率,得到所述多个归属概率,其中, i=l P (B」Ai)为构词要件Ai归属于归属类别h的预设概率,Qi为构词要件A i的权重赋值,V (Bj) 为所述归属类别h的概率,」依次取1至!11,11为所述构词要件的数量,111为所述归属类别的 数量。 进一步地,Qk+1 > Qk,其中,k依次取1至n-1。 进一步地,所述分类装置还包括:第一设定单元,用于在对所述关键词进行划分, 得到所述关键词的构词成分之前,设定所述预设类别;以及第二设定单元,用于设定归属于 所述预设类别的构词要件。 通过本专利技术,采用对所述关键词进行划分,得到所述关键词的构词成分;提取所述 构词成分中的多个构词要件;查询每个所述构词要件所归属的预设类别,得到多个归属类 另Ij ;计算每个所述归属类别的概率,得到多个归属概率;以及确定所述多个归属概率中的 最大概率所表示的类别为所述关键词的类别。通过对关键词进行划分,并从构词成分中提 取构词要件,进而基于构词要件所归属的类别的概率高低来确定关键词的类别,实现了以 构词要件分类作为基础,充分结合关键词的语义特征和构词特征进行关键词类别的确定, 解决了现有技术中确定关键词类型的精度比较低的问题,进而达到了提高关键词类型确定 准确度的效果。 【附图说明】 构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实 施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是根据本专利技术实施例的关键词的分类方法的流程图;以及 图2是根据本专利技术实施例的关键词的分类装置的示意图。 实施例1 根据本专利技术实施例,提供了一种可以用于实施本申请装置实施例的方法实施例, 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系 统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处 的顺序执行所示出或描述的步骤。 根据本专利技术实施例,提供了一种关键词的分类方法,图1是根据本专利技术实施例的 关键词的分类方法的流程图,如图1所示,该方法包括如下的步骤S102至步骤SllO : S102:对关键词进行划分,得到关键词的构词成分,具体地,对关键词进行划分为 对关键词进行细粒度切分,得到关键词的构词成分。 S104:提取构词成分中的多个构词要件,具体地,构词要件可以是短语、词或者语 素,比如:关键词为办理驾驶证北京,对该关键词进行划分后,可以得到构词成分办理、 北京和驾驶证,其中,构词要件是构词成分的一部分,具体地,由各个构词成分归属类 别的概率高低来确定,比如北京归属每个类别的概率均较低,识别度较低,则确定北京 是非构词要件,办理和驾驶证的归属对应类别的概率较高,则确定办理和驾驶证 是构词要件。 S106 :查询每个构词要件所归属的预设类别,得到多个归属类别。例如:步骤S104 中提取了 10个构词要件,在查询这10个构词要件所归属的预设类别后,有2个构词要件单 一归属于同一个预设类别,另外8个构词本文档来自技高网...
关键词的分类方法及装置

【技术保护点】
一种关键词的分类方法,其特征在于,包括:对所述关键词进行划分,得到所述关键词的构词成分;提取所述构词成分中的多个构词要件;查询每个所述构词要件所归属的预设类别,得到多个归属类别;计算每个所述归属类别的概率,得到多个归属概率;以及确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别。

【技术特征摘要】
1. 一种关键词的分类方法,其特征在于,包括: 对所述关键词进行划分,得到所述关键词的构词成分; 提取所述构词成分中的多个构词要件; 查询每个所述构词要件所归属的预设类别,得到多个归属类别; 计算每个所述归属类别的概率,得到多个归属概率;以及 确定所述多个归属概率中的最大概率所表示的类别为所述关键词的类别。2. 根据权利要求1所述的分类方法,其特征在于,在计算每个所述归属类别的概率,得 到多个归属概率之前,所述分类方法还包括: 接收每个所述构词要件的权重赋值, 其中,计算每个所述归属类别的概率,得到多个归属概率包括:按照每个所述构词要件 的权重赋值和每个所述构词要件的归属类别计算每个所述归属类别的概率,得到多个归属 概率。3. 根据权利要求2所述的分类方法,其特征在于,按照每个所述构词要件的权重赋值 和每个所述构词要件的归属类别计算每个所述归属类别的概率,得到多个归属概率包括: 按照公式十算每个所述归属类别的概率,得到所述多个归属 概率,其中,P(BjIAi)为构词要件Ai归属于归属类别h的预设概率,Qi为构词要件Ai的权 重赋值,V(Bj)为所述归属类别Bj的概率,j依次取1至m,η为所述构词要件的数量,m为 所述归属类别的数量。4. 根据权利要求3所述的分类方法,其特征在于:Qk+1 >Qk,其中,k依次取1至n-1。5. 根据权利要求1所述的分类方法,其特征在于,在对所述关键词进行划分,得到所述 关键词的构词成分之前,所述分类方法还包括: 设定所述预设类别;以及 设定归属于所述预设类别的构词要件。6. -种关键词的分类装置,...

【专利技术属性】
技术研发人员:侯明午
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1