【技术实现步骤摘要】
一种用于挖掘与检索词相关的关键词的方法和装置
本专利技术涉及计算机
,尤其涉及一种用于挖掘与检索词相关的关键词的方法和装置。
技术介绍
现有技术中,用户在搜索时主要通过其输入的检索词来表达其搜索意图,因此,搜索引擎对检索词的意图理解是否准确非常关键。而针对检索词的关键词提取技术,是搜索引擎检索词理解的基础模块。目前通常采用以下两种关键词提取技术:一,通过各种自然语言处理工具,分析检索词本身所包含的各个基础词条的权重,从而从检索词中提取出其中的关键词;二,聚合所有检索词,基于TF-IDF或者各种主题模型(PLSA/LDA等),提取其中的关键词。上述两种关键词提取技术存在以下缺点:一方面,用户输入的检索词通常比较随意,甚至偏口语化,且部分检索词可能存在错别字,甚至拼音等,如果仅仅从检索词本身出发,则不能较好地获取到匹配用户搜索意图的真正关键词;另一方面,没有充分借鉴现有的海量第三方网页上的相关知识,很难挖掘到匹配用户搜索意图的真正关键词。
技术实现思路
本专利技术的目的是提供一种用于挖掘与检索词相关的关键词的方法和装置。根据本专利技术的一个方面,提供一种用于挖掘与检索词相关的关键词的方法,其中,该方法包括:根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;根据所述历史展现结果,生成与query相对应的至少一个聚合结果;从所述至少一个聚合结果中提取与query相关的关键词。根据本专利技术的另一个方面,还提供了一种用于挖 ...
【技术保护点】
1.一种用于挖掘与检索词相关的关键词的方法,其中,该方法包括:根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;根据所述历史展现结果,生成与query相对应的至少一个聚合结果;从所述至少一个聚合结果中提取与query相关的关键词。
【技术特征摘要】
1.一种用于挖掘与检索词相关的关键词的方法,其中,该方法包括:根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;根据所述历史展现结果,生成与query相对应的至少一个聚合结果;从所述至少一个聚合结果中提取与query相关的关键词。2.根据权利要求1所述的方法,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果,所述根据所述历史展现结果,生成与query相对应的至少一个聚合结果的步骤包括:根据所述query以及与所述历史搜索结果相对应的多个url,构建多个<query,url>对;根据所述多个<query,url>,聚合得到与query相对应的一个聚合结果。3.根据权利要求1所述的方法,其中,所述历史展现结果包括历史展现页面中所展现的与query相关的辅助展现结果,所述根据所述历史展现结果,生成与query相对应的至少一个聚合结果的步骤包括:对所述辅助展现结果中的所有展现内容进行聚合,得到与query相对应的一个聚合结果。4.根据权利要求1所述的方法,其中,所述从所述至少一个聚合结果中提取与query相关的关键词的步骤包括:从所述至少一个聚合结果中提取多个基础词条;对于所述多个基础词条中的每个基础词条,根据该基础词条的特征计算该基础词条的权值;根据计算得到的所述多个基础词条所分别对应的权值,从该多个基础词条中提取与query相关的关键词。5.根据权利要求4的方法,其中,所述从所述至少一个聚合结果中提取多个基础词条的步骤包括:对于所述至少一个聚合结果中的每个聚合结果,对该聚合结果进行分词处理,获得与该聚合结果相应的多个基础词条。6.根据权利要求4或5所述的方法,其中,基础词条的特征包括以下至少一项:-基础词条的词性/重要等级;-基础词条在聚合结果中的TF-IDF特征;-基础词条所在的展现结果项所对应的用户行为特征;-基础词条在query中的出现情况。7.根据权利要求1所述的方法,其中,所述根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果的步骤包括:根据搜索引擎中的搜索日志信息,并结合预定指标信息,获得与query具有高相关性的历史展现结果。8.根据权利要求7所述的方法,其中,所述预定指标信息所指示的预定指标包括以下至少一项:-历史展现量;-历史展现位置;-历史点击量;-历史点击时间分布。9.根据权利要求1所述的方法,其中,该方法还包括:根据用户输入的检索词,查找与所述用户输入的检索词相关的关键词;基于所述用户输入的检索词以及与所述用户输入的检索词相关的关键词发起搜索,并将搜索...
【专利技术属性】
技术研发人员:陈敏,秦首科,韩友,黄飞,袁腾飞,邱学忠,贾银芳,刘国庆,韩聪,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。