通过替换概念性词语进行搜索推荐系统技术方案

技术编号:9694756 阅读:71 留言:0更新日期:2014-02-21 01:08
本发明专利技术提供的通过替换概念性词语进行搜索推荐系统,包括离线系统和在线系统;离线系统用于解析识别搜索引擎日志中每条历史记录中包含的实体性关键词,然后按照这些实体性关键词所属的类别,为这些历史记录建立索引;在线系统用于接收并解析由用户提交的搜索引擎查询,识别其中的概念性关键词,然后根据权重,寻找与给定搜索查询最为接近的、并且包含概念性关键词意义的实体性关键词的历史查询,然后将搜索到的查询进行排序,并返回给用户以进行二次查询。本发明专利技术简单直接、并且利用了源自搜索引擎的海量数据;在用户无法给出准确搜索词时,可以是用一些抽象的概念性关键词作;直接给出推荐的搜索词,提升了用户体验。

【技术实现步骤摘要】
通过替换概念性词语进行搜索推荐的系统
本专利技术涉及自然语言处理、搜索引擎领域,具体地,涉及XX的控制方法以及相应的控制装置。
技术介绍
经检索发现如下相关检索结果:相关检索结果1:申请(专利)号:200580042218.2,名称:推荐搜索引擎关键词摘要:搜索引擎接收具有一个或多个关键字的搜索查询。分析来自该搜索查询的结果集中的文档,来标识进一步分割或分隔原始结果集的一个或多个附加关键词。这些附加关键词被呈现给用户,然后用户选择是否包括或排除匹配这些附加关键词的文档。以此方式,原始结果集中的文档数量以相对快速且轻松的方式减少该专利文献基于对用户输入的搜索查询的结果集进行分析,并且提炼出可以用来分割结果的关键词,然后将提炼出的关键词推荐给用户,由用户决定是保留这些关键词指向的文档,还是排除这些关键词指向的文档。虽然这个过程看似比较简洁,但是对于目前的大数据时代,用户很难精准地提供初始的搜索查询,在这种情况下,该方法就无法保证最初的结果集中包含用户真正需要的文档,也就无法保证有效性。技术要点比较:1.根据用户输入的搜索引擎查询的结果集进行关键词推荐,由用户决定包括(或者排除)推荐关键词的结果集,而本专利技术中利用搜索引擎的历史记录和用户输入的搜索引擎查询进行整个查询的推荐。2.针对用户输入的搜索引擎查询的结果集进行直接的关键词推荐,而本专利技术试图更深层次得从语义上理解用户输入的查询,然后利用语义进行查询推荐。相关检索结果2:申请(专利)号:201010618555.4,名称:推荐搜索关键词的方法和装置摘要:本申请公开了一种推荐搜索关键词的方法和装置,用以解决现有技术中向没有明确搜索意图的用户推荐搜索关键词时推荐效果不佳,造成搜索引擎服务器系统资源浪费的问题。方法包括:接收输入的搜索关键词;比较接收的搜索关键词与设定的非意图词集合中的样本词以及设定的意图词集合中的样本词;当比较结果为接收的搜索关键词包含非意图词集合中的样本词而不包含意图词集合中的样本词时,以第一预定推荐方式为确定推荐搜索关键词的主方式,以除第一预定推荐方式外的其他推荐方式为确定搜索关键词的辅助方式的策略,确定推荐搜索关键词,其中,第一预定推荐方式为基于知识库的推荐方式和/或基于会话相关性的推荐方式。该专利文献使用意图词集和非意图词集来判断一个用户输入的搜索查询属于意图查询还是非意图查询,然后根据判定的结果,使用不同的策略作为主要推荐策略。当搜索查询被判定为意图查询时,该专利使用基于会话的推荐策略为主。当搜索查询被判定为非意图查询时,该专利使用基于知识库的推荐策略为主。但是意图词集和非意图词集本身非常有限,并且需要不断维护更新,代价较大;同时其使用的知识库也主要以阿里巴巴公司的电子商务分类为主。技术要点比较:1.采用复合的推荐策略,其中,对于模糊查询的推荐也采用知识库进行辅助,但是其知识库主要来源是阿里巴巴公司的电子商务分类,本专利技术的知识库采用Probase或者任意一种概率性层次数据库。相关检索结果3:申请(专利)号:201310165048.3,名称:搜索候选词的推荐方法及搜索引擎摘要:本专利技术提出一种搜索候选词的推荐方法及搜索引擎,其中所述方法包括:搜索引擎服务器接收用户输入的输入信息,并获得输入信息的前缀信息;将前缀信息作为索引获得多个搜索候选词以及每个搜索候选词的权重;判断多个搜索候选词中是否存在至少两个搜索候选词属于同一主题;如果判断存在至少两个搜索候选词属于同一主题,则保留至少两个搜索候选词中的一个搜索候选词的权重不变,对至少两个搜索候选词中的其他搜索候选词的权重进行降权处理;以及根据多个搜索候选词的权重进行排序,将排序之后的搜索候选词提供至用户。根据本专利技术实施例的方法,提高了搜索候选词的多样性和准确性,能够满足用户的搜索需求,并且算法简单,易于实施,提升用户体验。该专利文献主要针对用户输入的搜索查询的前缀,进行搜索查询的推荐,本质上讲,相当于一种自动补全功能。实际操作中,这种自动补全功能有一个较为严重的缺陷,就是可能由于某个突发热点事件,而导致关于这个突发热点的众多查询的权重一起被提升,其结果是搜索引擎会推荐众多意思极为相近的搜索查询。虽然该专利针对这种特殊场景进行了优化,但是仍然没有逃脱对于精准关键词的依赖。技术要点比较1.主要针对相似推荐关键词的聚合降权,而本专利技术倾向于对表意模糊的关键词进行理解并推荐。2.主要针对前缀进行搜索关键词推荐,而本专利技术主要针对搜索关键词中模糊的部分进行改写推荐。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种通过替换概念性词语进行搜索推荐的系统。本专利技术要解决的技术问题体现在以下几点:1)引入层次型知识库,从而可以对用户输入的搜索查询进行一个概念化的理解,即识别其中的概念性(模糊不清的)关键词。2)由于搜索引擎对于基于关键词的查询有较好的性能,因此本专利技术将识别到的概念性关键词替换为更为具体的实体性(具体的)关键词,从而获得更好的搜索结果。3)利用搜索引擎日志进行推荐。搜索引擎的日志中记录了海量的用户搜索查询,可以从中筛选出优质的、结果集精确的搜索查询,再将这些优质查询推荐给无法提供精准关键词的用户们。这种方法既直接,又能够提高搜索引擎的用户体验。根据本专利技术提供的通过替换概念性词语进行搜索推荐的系统,包括离线系统和在线系统,其中:离线系统,用于解析识别搜索引擎日志中每条历史记录中包含的实体性关键词,然后按照这些实体性关键词所属的类别,为这些历史记录建立索引,以供在线系统使用;在线系统,用于接收并解析由用户提交的搜索引擎查询,识别其中的概念性关键词,然后根据权重,寻找与给定搜索查询最为接近的、并且包含概念性关键词意义的实体性关键词的历史查询,然后将搜索到的查询进行排序,并返回给用户一个经过排序后的推荐列表,由用户选择其认为更为贴近的查询,进行二次查询。优选地,所述离线系统包括实体抽象化模块和概念聚合模块,其中:实体抽象化模块,用于识别每条历史查询中包含的实体性关键词,再将识别到的实体性关键词抽象化到对应的概念性关键词,然后交给概念聚合模块处理;概念聚合模块,用于将包含相同概念的历史查询聚合到一起,建立索引;对于每一条历史查询,实体抽象化模块识别出其中包含的实体性关键词、以及它们对应的概念,概念聚合模块根据这些概念,将包含相同概念的历史查询聚合到一起;建立一个以概念为主键的索引,交给在线系统使用。优选地,所述在线系统包括概念分析模块、索引检索模块和打分排序模块,其中:概念分析模块,用于识别用户提交的搜索查询中的概念性关键词;索引检索模块,用于根据概念分析模块识别出的概念性关键词,遍历由离线系统生成的索引,找到所有包含与识别出的概念性关键词相一致的实体性关键词的历史查询,将这些历史查询作为候选推荐查询;打分排序模块,用于给所有索引检索模块找到的候选推荐查询打分,并且排序,最后将排好序的候选推荐列表的一部分返回给用户选择。优选地,所述打分被定义为距离,其包含三个部分:语义距离、字面距离以及历史查询的质量。优选地,所述语义距离是用来描述用户查询原有的概念性关键词与替换的实体性关键词的典型性的,典型性用如下公式定义:其中,Typicality(instance,concept)表示对于给定概念,一个实本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201310501114.html" title="通过替换概念性词语进行搜索推荐系统原文来自X技术">通过替换概念性词语进行搜索推荐系统</a>

【技术保护点】
一种通过替换概念性词语进行搜索推荐系统,其特征在于,包括离线系统和在线系统,其中:离线系统,用于解析识别搜索引擎日志中每条历史记录中包含的实体性关键词,然后按照这些实体性关键词所属的类别,为这些历史记录建立索引,以供在线系统使用;在线系统,用于接收并解析由用户提交的搜索引擎查询,识别其中的概念性关键词,然后根据权重,寻找与给定搜索查询最为接近的、并且包含概念性关键词意义的实体性关键词的历史查询,然后将搜索到的查询进行排序,并返回给用户一个经过排序后的推荐列表,由用户选择其认为更为贴近的查询,进行二次查询。

【技术特征摘要】
1.一种通过替换概念性词语进行搜索推荐的系统,其特征在于,包括离线系统和在线系统,其中:离线系统,用于解析识别搜索引擎日志中每条历史记录中包含的实体性关键词,然后按照这些实体性关键词所属的类别,为这些历史记录建立索引,以供在线系统使用;在线系统,用于接收并解析由用户提交的搜索引擎查询,识别其中的概念性关键词,然后根据权重,寻找与给定搜索查询最为接近的、并且包含概念性关键词意义的实体性关键词的历史查询,然后将搜索到的查询进行排序,并返回给用户一个经过排序后的推荐列表,由用户选择其认为更为贴近的查询,进行二次查询;所述在线系统包括概念分析模块、索引检索模块和打分排序模块,其中:概念分析模块,用于识别用户提交的搜索查询中的概念性关键词;索引检索模块,用于根据概念分析模块识别出的概念性关键词,遍历由离线系统生成的索引,找到所有包含与识别出的概念性关键词相一致的实体性关键词的历史查询,将这些历史查询作为候选推荐查询;打分排序模块,用于给所有索引检索模块找到的候选推荐查询打分,并且排序,最后将排好序的候选推荐列表的一部分返回给用户选择;所述打分被定义为距离,其包含三个部分:语义距离、字面距离以及历史查询的质量;所述语义距离是用来描述用户查询原有的概念性关键词与替换的实体性关键词的典型性的,典型性用如下公式定义:其中,Typicality(instance,concept)表示对于给定概念,一个实体对于这个概念的典型程度,Freq(instance,concept)表示一个实体与一个概念共同出现的频率,Freq(concept)表示给定概念在语料库中的频率,instance表示一个实体,concept表示一个概念;并用如下公式做变换:其中,SemDist(typ)表示语义距离,typ表示一个典型度的值,由Typicality(instance,conce...

【专利技术属性】
技术研发人员:朱其立孙伟
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1