一种搜索需求识别方法及装置制造方法及图纸

技术编号:8452981 阅读:207 留言:0更新日期:2013-03-21 15:49
本发明专利技术公开了一种搜索需求识别方法及装置。一种搜索需求识别方法包括:根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;对所获取的关键词的出现频率进行统计;接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。应用本发明专利技术实施例所提供的方案,可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词,直接确定用户所输入的内容是否具有翻译需求并给出翻译结果,从而提高了翻译需求识别的应用范围,并且进一步方便了用户的使用。

【技术实现步骤摘要】

本申请涉及互联网应用
,特别是涉及一种搜索需求识别方法及装置
技术介绍
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。传统的搜索引擎,在接收到用户的提交的搜索请求(query)后,首先提取该query所包含的关键词,然后基于文本内容匹配操作,将包含有该关键词的网页或文档返回给用户。随着用户对搜索智能化要求的不断提升,搜索需求识别已经成为搜索领域的一个研究热点。所谓搜索需求识别,就是根据用户所提交的query,分析和预测用户的需求,确定用户的意图或感兴趣的领域,然后再向其提供相应的信息。例如,用户输入“从北京到上海”这样的query,则可以识别出该用户可能具有较强的地图查询需求或票务查询需求,这样就可以在展示搜索结果时,直接向用户提供地图或票务的相关内容,或者将地图或票务的相关内容排在搜索结果的前面,从而方便用户进一步浏览。搜索需求识别所涉及的关键技术包括语义分析、行为分析、智能人机交互、海量计算处理、信息抽取等等。由于用户query表述方式的多样性,目前一种较为常用的方式是在不同的领域对用户的query进行分析,以实现更有针对性的搜索需求识别。翻译需求是用户在搜索过程中一种较为常见的需求,根据现有技术,当用户输入“XXX翻译”或“XXX是什么意思”这样的query后,搜索引擎可以根据“翻译”或“是什么意思”等明显具有翻译需求的表述,较好地识别出用户具有针对单词“xxx”的翻译需求。但是在实际应用中,用户的query中可能仅包括一个单词或短语,而不包括“翻译”或“是什么意思”等有翻译需求的表述,在这种情况下,现有的搜索引擎还不能够很好地确定用户当前是否具有翻译需求。
技术实现思路
为解决上述技术问题,本申请实施例提供种一种搜索需求识别方法及装置,以实现对用户翻译需求的更有效识别,技术方案如下本申请实施例提供一种搜索需求识别方法,包括根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;对所获取的关键词的出现频率进行统计;接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。根据本申请的一种实施方式,所述获取用户在执行翻译操作时所使用的关键词,包括如果用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果,则获取用户本次搜索所使用的关键词。根据本申请的一种实施方式,所述获取用户在执行翻译操作时所使用的关键词,包括如果根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求,则获取本次搜索具有翻译需求部分的关键词。根据本申请的一种实施方式,所述获取用户在执行翻译操作时所使用的关键词,包括获取用户在翻译类产品中所输入的关键词。根据本申请的一种实施方式,所述对所获取的关键词的出现频率进行统计,包括利用n-gram模型,对所获取的关键词中出现的每个n-gram单元的频率进行统计。根据本申请的一种实施方式,所述接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,包括根据统计结果,获得搜索关键词中每个n-gram单元的频率;判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。根据本申请的一种实施方式,在对所获取的关键词的出现频率进行统计之前,还包括对所获取的关键词进行词形还原处理和/或去除停用词处理。根据本申请的一种实施方式,在判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前,还包括对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。根据本申请的一种实施方式,在确定搜索请求具有翻译需求后,还包括对搜索请求对应的翻译结果进行展现,所述翻译结果的展现方法包括在搜索框中,展现搜索请求所对应的翻译结果;或将搜索请求所对应的翻译结果以搜索建议的形式进行展现。根据本申请的一种实施方式,在接收到搜索请求并生成搜索建议之后,还包括判断搜索建议的内容是否具有翻译需求。本申请实施例还提供一种搜索需求识别装置,包括翻译关键词获取单元,用于根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;翻译关键词统计单元,用于对所获取的关键词的出现频率进行统计;翻译需求识别单元,用于接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。根据本申请的一种实施方式,所述翻译关键词获取单元,具体配置为用于在用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果的情况下,获取用户本次搜索所使用的关键词。根据本申请的一种实施方式,所述翻译关键词获取单元,具体配置为用于在根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求的情况下,获取本次搜索具有翻译需求部分的关键词。根据本申请的一种实施方式,所述翻译关键词获取单元,具体配置为用于获取用户在翻译类产品中所输入的关键词。根据本申请的一种实施方式,所述翻译关键词统计单元,具体配置为用于利用n-gram模型,对所获取的关键词中出现的每个n-gram单元的频率进行统计。根据本申请的一种实施方式,所述翻译需求识别单元,具体配置为用于根据统计结果,获得搜索关键词中每个n-gram单元的频率;判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。根据本申请的一种实施方式,该装置还包括翻译关键词预处理单元,用于在所述翻译关键词统计单元对所获取的关键词的出现频率进行统计之前,对所获取的关键词进行词形还原处理和/或去除停用词处理。根据本申请的一种实施方式,该装置还包括搜索关键词预处理单元,用于在所述翻译关键词统计单元判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前,对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。根据本申请的一种实施方式,该装置还包括翻译结果展现单元,用于在所述翻译需求识别单元确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现,所述翻译结果展现单元具体配置为用于在搜索框中,展现搜索请求所对应的翻译结果;或将搜索请求所对应的翻译结果以搜索建议的形式进行展现。根据本申请的一种实施方式,所述翻译需求识别单元还用于在接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。本申请实施例所提供的方案,首先从大量用户的历史行为日志中获取用户在执行与翻译相关操作时所使用的关键词,并对这些关键词的出现频率进行统计。在统计结果中,词的出现频率越高,说明用户对这些词的翻译需求越强。进而,如果用户在搜索过程中,使用的搜索关键词的出现频率达到一定要求,则可以判断该用户本次的搜索行为具有翻译需求。应用本申请实施例所提供的方案,可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词,直接确定用户所输入的内容是否具有翻译需求并给出翻译结果,从而提高了翻译需求识别的应用范围,并且进一步方便了用户的使用。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记本文档来自技高网
...

【技术保护点】
一种搜索需求识别方法,其特征在于,包括:根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;对所获取的关键词的出现频率进行统计;接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。

【技术特征摘要】

【专利技术属性】
技术研发人员:蓝翔柴春光吴华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1