对查询词分类的方法及装置制造方法及图纸

技术编号:9462814 阅读:59 留言:0更新日期:2013-12-19 00:05
本发明专利技术提供了对查询词分类的方法及装置,其中,该方法包括:确认分类资源库中没有存储当前查询词,对当前查询词进行划分,得到分词结果,分词结果包含至少一个分词;根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类;计算当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。本发明专利技术方案能够实现基于已有分类资源库对新的查询词进行分类。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了对查询词分类的方法及装置,其中,该方法包括:确认分类资源库中没有存储当前查询词,对当前查询词进行划分,得到分词结果,分词结果包含至少一个分词;根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类;计算当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。本专利技术方案能够实现基于已有分类资源库对新的查询词进行分类。【专利说明】对查询词分类的方法及装置
本专利技术涉及信息搜索领域,尤其涉及对查询词分类的方法及装置。
技术介绍
现有的信息搜索方法包括:首先,客户端接收用户输入的查询词,向网络侧服务器发送包含查询词的搜索请求。用户输入的查询词为当前待搜索的查询词,通常将其称为当前查询词。查询词也就是用户进行搜索时输入的关键词,例如,采用百度搜索工具进行搜索时输入的关键词“射雕英雄传电视剧”,即为查询词。而后,服务器根据搜索请求搜索出网页条目;为当前查询词设置分类,由分类等多个影响因子对搜索出的众多网页条目进行排序,将排序后的网页条目发送给客户端。最后,客户端将排序后的网页条目展示给用户。每个网页条目对应一个网页,用户点击某网页条目,便可展示对应的网页。以查询词“专利技术”为例,图1示出了与“专利技术”相关的部分网页条目,包括:关于“中国专利技术网”的网页条目,关于“专利技术百度百科”的网页条目,关于“专利技术吧百度贴吧”的网页条目,关于“《我爱专利技术》官网”的网页条目,关于“专利技术的最新相关信息”的网页条目;图中的省略号为各网页条目的概述。进行排序的影响因子包括多个,分类为其中的一个重要因子。目前多采用离线资源挖掘方法进行查询词分类,具体包括:分类资源库中存储了查询词信息,包括查询词、查询词的置信度和分类,进行分类查询词时,由当前查询词在分类资源库中确定出其分类。预先在分类资源库中存储查询词信息的方法包括:从搜索日志中选取查询词,采用分类器为选取的各查询词设置置信度和分类,将查询词、查询词的置信度和分类存储到分类资源库。搜索日志中记录了各次搜索数据,每次搜索数据包括查询词及搜索得到的网页条目;分类器根据搜索数据进行学习,得到各查询词的置信度和分类,其中,置信度为相应分类的可信程度。现有方案在分类资源库中确定出与当前查询词对应的分类,存在以下缺陷:由于用户通过客户端不断输入新的查询词,即分类资源库中没有的查询词,为了保证能匹配到新的查询词,需要不断进行学习,以在分类资源库中增加查询词及该查询词的分类,这导致资源挖掘的代价比较大;并且,用户输入的查询词千变万化,采用现有方案存储到分类资源库的查询词覆盖率低,很难构建一个完备的分类资源库,以实现对用户输入的任何查询词都可以进行分类。如果能基于已有分类资源库实现对新的查询词进行分类,将克服上述缺陷,但目前还没有这方面的技术。
技术实现思路
本专利技术提供了一种对查询词分类的方法,该方法能够实现基于已有分类资源库对新的查询词进行分类,从而降低分类资源的挖掘成本、提高搜索结果的排序效率。本专利技术提供了一种对查询词分类的装置,该装置能够实现基于已有分类资源库对新的查询词进行分类,从而降低分类资源的挖掘成本、提高搜索结果的排序效率。—种对查询词分类的方法,该方法包括:确认分类资源库中没有存储当前查询词,对当前查询词进行划分,得到分词结果,分词结果包含至少一个分词;根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类;计算出当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。一种对查询词分类的装置,该装置包括判断单元、分词器、索引单元、计算及存储单元;所述判断单元,用于确认分类资源库中没有存储当前查询词,向所述分词器发送启动指令;所述分词器,用于接收启动指令,对当前查询词进行划分,得到分词结果,传送给索引单元,分词结果包含至少一个分词;所述索引单元,用于根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类,将相似查询词传送给计算及存储单元;所述计算及存储单元,用于计算出当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。从上述方案可以看出,本专利技术中,如果确认分类资源库中没有存储当前查询词,也就是当前查询词为新的查询词,则对当前查询词进行划分,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,基于相似查询词计算出当前查询词的置信度,并将相似查询词的分类作为当前查询词的分类。从而,实现了基于已有分类资源库对新的查询词进行分类,减少了资源挖掘的代价,并且,即使用户输入的查询词千变万化,也能完成对用户输入的任意查询词的分类。【专利附图】【附图说明】图1为由查询词“专利技术”搜索出的网页条目;图2为本专利技术对查询词分类的方法示意性流程图;图3为本专利技术预先建立分类资源库的方法示意性流程图;图4为本专利技术对查询词分类的装置结构示意图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术进一步详细说明。本专利技术中,若当前查询词为新的查询词时,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,基于相似查询词计算出当前查询词的置信度,并将相似查询词的分类作为当前查询词的分类。其中,相似查询词即为在分类资源库中与当前查询词相似的查询词。参见图2,为本专利技术对查询词分类的方法示意性流程图,其包括以下步骤:步骤201,确认分类资源库中没有存储当前查询词。判断分类资源库中是否存储有当前查询词,如果有,则将对应的分类作为当前查询词的分类,如果没有则执行步骤202,则确认分类资源库中没有存储当前查询词,采用本专利技术方案对当前查询词进行分类。步骤202,对当前查询词进行划分,得到分词结果,分词结果包含至少一个分词。将当前查询词划分为一个个独立的分词,具体地,可采用分词器实现划分。例如,将“天龙八部电视剧”划分为“天龙八部”和“电视剧”两个分词。步骤203,根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类。同样以在客户端中输入关键词“天龙八部电视剧”进行搜索的例子进行说明,将分类资源库中包含“天龙八部”的查询词、包含“电视剧”的查询词,以及同时包含“天龙八部”和“电视剧”的查询词,都确定为当前查询词的相似查询词。本文档来自技高网
...
对查询词分类的方法及装置

【技术保护点】
一种对查询词分类的方法,其特征在于,该方法包括:确认分类资源库中没有存储当前查询词,对当前查询词进行划分,得到分词结果,分词结果包含至少一个分词;根据当前查询词的分词结果,从分类资源库中确定出至少包含一个分词的建库查询词作为相似查询词,并将该建库查询词的置信度作为相似查询词的置信度,该建库查询词的分类作为该相似查询词的分类;计算出当前查询词与相似查询词之间的相似度,由所述相似度和相似查询词的置信度计算出当前查询词的置信度,将相似查询词的分类作为当前查询词的分类,在分类资源库中存储当前查询词、当前查询词的置信度和当前查询词的分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:罗景
申请(专利权)人:深圳市世纪光速信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1