【技术实现步骤摘要】
获取与页面相关的搜索词的方法、装置和系统
本专利技术涉及页面浏览与搜索
,尤其涉及一种获取与页面相关搜索词的方法、装置和系统及与页面相关的搜索词的推荐方法与装置。
技术介绍
随着信息的快速膨胀,搜索引擎成为获取知识的重要手段。相应地,需要挖掘更多与页面具有关联关系的搜索词,以便于快速准确地向用户提供搜索结果。一方面,当用户使用搜索词进行搜索时,搜索引擎往往还会向用户提供一些与搜索词含义相似的同义搜索词的搜索结果。为此,需要整理同义搜索词库。而一般而言,同义搜索词是通过对各搜索词的语义进行分析来获取的,同义搜索词的获得途径较为狭窄。相应地,通过搜索词结合同义搜索词得到的搜索结果(页面)在新颖性和多样性方面都存在不足。另一方面,用户在阅读页面(例如网页)内容时,如果对当前页面内容不满意,或者想进一步获取与页面内容相关的知识,往往会打开搜索引擎页面,主动发起搜索。此时,搜索词可能是页面内容中存在的词语,也可能是用户浏览页面内容时想到的页面内容中不存在的词语。此时,若在页面上主动展示与当前页面相关的搜索词,则可以帮助用户快速跳转至搜索结果页,极大的缩短了知识获取的路 ...
【技术保护点】
一种获取与页面相关的搜索词的方法,包括:分析用户的浏览日志,以从所述浏览日志中识别出用户的搜索行为记录和浏览行为记录;从所述搜索行为记录中提取对应的搜索词,从所述浏览行为记录中提取对应的页面识别信息;基于所述用户的浏览日志中所述搜索行为记录和所述浏览行为记录之间的关联关系,确定与所述页面识别信息对应的搜索词子列表,所述搜索词子列表中包括与对应于所述页面识别信息的浏览行为记录相关联的搜索行为记录所对应的搜索词。
【技术特征摘要】
1.一种获取与页面相关的搜索词的方法,包括:分析用户的浏览日志,以从所述浏览日志中识别出用户的搜索行为记录和浏览行为记录;从所述搜索行为记录中提取对应的搜索词,从所述浏览行为记录中提取对应的页面识别信息;基于所述用户的浏览日志中所述搜索行为记录和所述浏览行为记录之间的关联关系,确定与所述页面识别信息对应的搜索词子列表,所述搜索词子列表中包括与对应于所述页面识别信息的浏览行为记录相关联的搜索行为记录所对应的搜索词。2.根据权利要求1所述的方法,还包括:聚合从多个用户的浏览日志获取的搜索词子列表,以得到与各个页面识别信息分别对应的搜索词合并列表。3.根据权利要求2所述的方法,还包括:对所述搜索词子列表中的各个搜索词分别设置权重,并且,所述聚合从多个用户的浏览日志获取的搜索词子列表的步骤包括:对于同一个页面识别信息,基于从所述多个用户的浏览日志获取的与其对应的搜索词的权重,得到所述搜索词在所述搜索词合并列表中的总权重;以及基于所述总权重对与所述同一个页面识别信息对应的所述搜索词合并列表中的搜索词排序。4.根据权利要求3所述的方法,其中,基于所述搜索词的输入方式来设置所述权重;并且/或者基于所述搜索词对应的搜索行为记录与所述页面识别信息对应的浏览行为记录之间的时间间隔和/或间隔的搜索行为记录和/或浏览行为记录数量来设置所述权重。5.根据权利要求1所述的方法,其中,所述分析用户的浏览日志以从所述浏览日志中识别出用户的搜索行为记录和浏览行为记录的步骤包括:根据页面的HOST及URL特征、请求参数,并且/或者根据页面的标题,从所述浏览日志中识别出所述用户的搜索行为和浏览行为。6.根据权利要求1-5中任何一项所述的方法,其中,所述搜索词子列表包括前置搜索词子列表和/或后置搜索词子列表,所述前置搜索词子列表包括前置搜索词,所述前置搜索词是在对应于所述页面识别信息的浏览行为记录之前发生并与该浏览行为记录相关联的搜索行为记录所对应的搜索词,所述后置搜索词子列表包括后置搜索词,所述后置搜索词是在对应于所述页面识别信息的浏览行为记录之后发生并与该浏览行为记录相关联的搜索行为记录所对应的搜索词,所述搜索词合并列表包括前置搜索词合并列表和/或后置搜索词合并列表。7.根据权利要求6所述的方法,其中,所述基于所述搜索行为记录和所述浏览行为记录之间的关联关系,确定与所述页面识别信息对应的搜索词子列表的步骤包括:将同一个用户的浏览日志中的行为记录划分成一个或多个会话,使得每个会话满足以下至少一项条件:会话中的第一条行为记录与最后一条行为记录之间的时间差不大于第一阈值;和/或会话中相邻两条行为记录之间的时间间隔不大于第二阈值;和/或会话中的搜索行为记录和/或浏览行为记录的数量不大于第三阈值,其中,所述行为记录包括所述搜索行为记录和所述浏览行为记录;将同一个会话中,浏览行为记录之前的所有搜索行为记录对应的搜索词确定为所述浏览行为记录对应的页面识别信息的所述前置搜索词;将同一个会话中,浏览行为记录之后的所有搜索行为记录对应的搜索词确定为所述浏览行为记录对应的页面识别信息的所述后置搜索词。8.一种针对用户当前浏览的页面推荐相关搜索词的方法,包括:根据权利要求1-7中任何一项所述的方法获取与所述页面的页面识别信息对应的后置搜索词合并列表;向所述用户提供所述后置搜索词合并列表中的至少一个后置搜索词。9.一种获取与页面相关的搜索词的装置,包括:分析模块,用于分析用户的浏览日志,以从所述浏览日志中识别出用户的搜索行为记录和浏览行为记录;提取模块,用于从所述搜索行为记录中提取对应的搜索词,从所述浏览行为记录中提取对应的页面识别信息;子列表确定模块,用于基于所述用户的浏览日志中所述搜索行为记录和所述浏览行为记录之间的关联关系,确定与所述页面识别信息对应的搜索词子列表,所述搜索词子列表中包括与对应于所述页面识别信息的浏览行为记录相关联的搜索行为记...
【专利技术属性】
技术研发人员:蔡建山,
申请(专利权)人:广东神马搜索科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。