一种用于挖掘与检索词相关的关键词的方法和装置制造方法及图纸

技术编号:19023378 阅读:19 留言:0更新日期:2018-09-26 19:03
本发明专利技术提供了一种用于挖掘与检索词相关的关键词的方法和装置,该方法包括:根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;根据所述历史展现结果,生成与query相对应的至少一个聚合结果;从所述至少一个聚合结果中提取与query相关的关键词。根据本发明专利技术的方案,引入了用户历史搜索行为指导,且借鉴了海量历史搜索结果,较大程度地弥补了检索词本身的信息量不足的问题,从而利于挖掘出能够反映用户搜索意图的真正关键词。

【技术实现步骤摘要】
一种用于挖掘与检索词相关的关键词的方法和装置
本专利技术涉及计算机
,尤其涉及一种用于挖掘与检索词相关的关键词的方法和装置。
技术介绍
现有技术中,用户在搜索时主要通过其输入的检索词来表达其搜索意图,因此,搜索引擎对检索词的意图理解是否准确非常关键。而针对检索词的关键词提取技术,是搜索引擎检索词理解的基础模块。目前通常采用以下两种关键词提取技术:一,通过各种自然语言处理工具,分析检索词本身所包含的各个基础词条的权重,从而从检索词中提取出其中的关键词;二,聚合所有检索词,基于TF-IDF或者各种主题模型(PLSA/LDA等),提取其中的关键词。上述两种关键词提取技术存在以下缺点:一方面,用户输入的检索词通常比较随意,甚至偏口语化,且部分检索词可能存在错别字,甚至拼音等,如果仅仅从检索词本身出发,则不能较好地获取到匹配用户搜索意图的真正关键词;另一方面,没有充分借鉴现有的海量第三方网页上的相关知识,很难挖掘到匹配用户搜索意图的真正关键词。
技术实现思路
本专利技术的目的是提供一种用于挖掘与检索词相关的关键词的方法和装置。根据本专利技术的一个方面,提供一种用于挖掘与检索词相关的关键词的方法,其中,该方法包括:根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;根据所述历史展现结果,生成与query相对应的至少一个聚合结果;从所述至少一个聚合结果中提取与query相关的关键词。根据本专利技术的另一个方面,还提供了一种用于挖掘与检索词相关的关键词的装置,其中,该装置包括:第一获得装置,用于根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;生成装置,用于根据所述历史展现结果,生成与query相对应的至少一个聚合结果;第一提取装置,用于从所述至少一个聚合结果中提取与query相关的关键词。与现有技术相比,本专利技术具有以下优点:能够基于与检索词具有高相关性的历史展现结果,来聚合得到与检索词相对应的至少一个聚合结果,并从该至少一个聚合结果中提取与检索词相关的关键词,该挖掘与检索词相关的关键词的方案引入了用户历史搜索行为指导,且借鉴了海量历史搜索结果,较大程度地弥补了检索词本身的信息量不足的问题,从而利于挖掘出能够反映用户搜索意图的真正关键词。此外,当用户发起实际搜索时,可先查找到线下挖掘得到的与用户输入的检索词相关的关键词再发起搜索,从而能够为用户提供更高质量的搜索服务;并且,若基于海量用户最近的历史搜索行为来挖掘与检索词相关的关键词,则在用户的实际搜索中基于该等挖掘得到的与检索词相关的关键词所获得的搜索结果,更可能满足用户的实时搜索需求。此外,将该挖掘与检索词相关的关键词的方案应用于实际搜索过程中的广告触发时,能够大幅提升搜索广告触发比例,大量提升搜索流量的变现效率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术一个实施例的用于挖掘与检索词相关的关键词的方法的流程示意图;图2为本专利技术另一个实施例的用于挖掘与检索词相关的关键词的方法的流程示意图;图3为本专利技术一个实施例的用于挖掘与检索词相关的关键词的装置的结构示意图;图4为本专利技术另一个实施例的用于挖掘与检索词相关的关键词的装置的结构示意图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的程序指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。所述计算机设备例如包括用户设备与网络设备。其中,所述用户设备包括但不限于PC机、平板电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本专利技术,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本专利技术。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备如可适用于本专利技术,也应包含在本专利技术保护范围以内,并以引用方式包含于此。本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本专利技术的示例性实施例的目的。但是本专利技术可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。下面结合附图对本专利技术作进一步详细描述。图1为本专利技术一个实施例的用于挖掘与检索词相关的关键词的方法的流程示意图。本实施例的方法主要由网络设备来实施。根据本实施例的方法包括步骤S1、步骤S2和步骤S3。在步骤S1中,网络设备根据搜索引擎中的搜索日志信息,获得与检索本文档来自技高网...

【技术保护点】
1.一种用于挖掘与检索词相关的关键词的方法,其中,该方法包括:根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;根据所述历史展现结果,生成与query相对应的至少一个聚合结果;从所述至少一个聚合结果中提取与query相关的关键词。

【技术特征摘要】
1.一种用于挖掘与检索词相关的关键词的方法,其中,该方法包括:根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果和/或与query相关的辅助展现结果;根据所述历史展现结果,生成与query相对应的至少一个聚合结果;从所述至少一个聚合结果中提取与query相关的关键词。2.根据权利要求1所述的方法,其中,所述历史展现结果包括历史展现页面中所展现的针对query的历史搜索结果,所述根据所述历史展现结果,生成与query相对应的至少一个聚合结果的步骤包括:根据所述query以及与所述历史搜索结果相对应的多个url,构建多个<query,url>对;根据所述多个<query,url>,聚合得到与query相对应的一个聚合结果。3.根据权利要求1所述的方法,其中,所述历史展现结果包括历史展现页面中所展现的与query相关的辅助展现结果,所述根据所述历史展现结果,生成与query相对应的至少一个聚合结果的步骤包括:对所述辅助展现结果中的所有展现内容进行聚合,得到与query相对应的一个聚合结果。4.根据权利要求1所述的方法,其中,所述从所述至少一个聚合结果中提取与query相关的关键词的步骤包括:从所述至少一个聚合结果中提取多个基础词条;对于所述多个基础词条中的每个基础词条,根据该基础词条的特征计算该基础词条的权值;根据计算得到的所述多个基础词条所分别对应的权值,从该多个基础词条中提取与query相关的关键词。5.根据权利要求4的方法,其中,所述从所述至少一个聚合结果中提取多个基础词条的步骤包括:对于所述至少一个聚合结果中的每个聚合结果,对该聚合结果进行分词处理,获得与该聚合结果相应的多个基础词条。6.根据权利要求4或5所述的方法,其中,基础词条的特征包括以下至少一项:-基础词条的词性/重要等级;-基础词条在聚合结果中的TF-IDF特征;-基础词条所在的展现结果项所对应的用户行为特征;-基础词条在query中的出现情况。7.根据权利要求1所述的方法,其中,所述根据搜索引擎中的搜索日志信息,获得与检索词query具有高相关性的历史展现结果的步骤包括:根据搜索引擎中的搜索日志信息,并结合预定指标信息,获得与query具有高相关性的历史展现结果。8.根据权利要求7所述的方法,其中,所述预定指标信息所指示的预定指标包括以下至少一项:-历史展现量;-历史展现位置;-历史点击量;-历史点击时间分布。9.根据权利要求1所述的方法,其中,该方法还包括:根据用户输入的检索词,查找与所述用户输入的检索词相关的关键词;基于所述用户输入的检索词以及与所述用户输入的检索词相关的关键词发起搜索,并将搜索...

【专利技术属性】
技术研发人员:陈敏秦首科韩友黄飞袁腾飞邱学忠贾银芳刘国庆韩聪
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1