一种提供相关搜索的方法和装置制造方法及图纸

技术编号:9113428 阅读:142 留言:0更新日期:2013-09-05 02:36
本发明专利技术提供了一种提供相关搜索(RS)的方法和装置,在线下RS挖掘过程中,将历史搜索日志中的各搜索项(query)分别作为当前query执行以下步骤将与当前query共现于同一会话的其他query构成当前query的候选RS;依据相似度对当前query的候选RS进行聚类得到当前query对应的候选RS簇,保存当前query对应的候选RS簇至数据库;线上RS提供过程:获取数据库中与用户当前输入的query表达相同语义的query对应的候选RS簇;选择搜索次数排在前N1个的候选RS簇,将选择的候选RS簇中搜索次数排在前N2个的候选RS确定为用户当前输入的query的RS。本发明专利技术能够为用户提供更有效的RS,节省用户搜索时间和节约网络资源。

【技术实现步骤摘要】
一种提供相关搜索的方法和装置
本专利技术涉及计算机应用
,特别涉及一种提供相关搜索的方法和装置。
技术介绍
搜索效果好不好很多时候取决于用户输入的搜索项(query)是否恰当,但很多时候用户往往并不能准确输入能够获得想要的搜索结果的query,而希望获得一些参考,相关搜索(RS)就是搜索引擎提供的与用户输入的query相似的一系列query,通常可以分布在搜索结果页的下方或者输入框的下方。现有技术中提供RS的方式是根据用户输入的query,查找尽可能包含用户输入的query中大部分的词项(term)的高频query。例如用户输入的query为“明星X”,那么输出的RS如图1所示,包括:“明星X素颜照”、“明星X豪宅”、“明星X男友”、“明星X短发”、“明星X素颜”、“明星X古装”、“明星X生活照”、“明星X比基尼”。然而,现有技术中提供RS的方式存在以下缺陷:其一、可能会造成提供的RS集中在某一个或若干个语义类别上,存在大量的语义类别重复,这就造成给用户的参考信息量很少,如图1中所示的情况,可以看出“明星X素颜照”、“明星X素颜”、“明星X短发”和“明星X生活照”都属于对明星X模样上的描述,“明星X古装”和“明星X比基尼”都属于着装类的。RS所占用的页面资源是有限的,如果存在大量语义类别上的重复就不能给用户提供更广泛的搜索建议,例如用户可能希望获得明星X弟弟类的相关搜索,但可能其搜索频度并没有以上几个RS的高,就没有机会作为RS展现。其二、现有技术中RS仅仅是字面上与用户输入的query存在包含关系的相关query,对于与其关系密切但并不包含用户输入的query的相关query,则无法作为RS。例如传说中明星X豪宅的名称就无法作为RS展示给用户。这样用户就需要自己不断变换输入的query,并从输入的各query的搜索结果中查找自己想要的信息,一方面操作繁琐,另一方面也浪费了网络资源。
技术实现思路
有鉴于此,本专利技术提供了一种提供相关搜索的方法和装置,以便于为用户提供更有效的RS,节省用户的搜索时间和节约网络资源。具体技术方案如下:一种提供相关搜索RS的方法,该方法包括:在线下RS挖掘过程中,将历史搜索日志中的各搜索项query分别作为当前query执行以下步骤S01至步骤S02:S01、将与当前query共现于同一会话session的其他query构成当前query的候选RS;S02、依据相似度对当前query的候选RS进行聚类得到当前query对应的候选RS簇,保存当前query对应的候选RS簇至数据库;线上RS提供过程:S11、获取用户当前输入的query;S12、获取所述数据库中与用户当前输入的query表达相同语义的query对应的候选RS簇;S13、选择在所述历史搜索日志中搜索次数排在前N1个的候选RS簇,将选择的候选RS簇中在所述历史搜索日志中搜索次数排在前N2个的候选RS确定为用户当前输入的query的RS,所述N1和N2为预设的正整数。根据本专利技术一优选实施例,在所述步骤S01中还包括:将表达相同语义的query归一化为相同的表述。根据本专利技术一优选实施例,在所述步骤S01和所述步骤S02之间还包括:将与当前query共现于同一session的次数小于预设次数阈值的候选RS过滤掉。根据本专利技术一优选实施例,在所述步骤S02中进行聚类时所采用的相似度计算方法具体包括:确定与RSi共现于同一个session的query构成的query列表以及各query对应的与所述RSi的共现于同一个session的次数,所述RSi为所述候选RS中的一个RS;将RSi的query列表与所述当前query的候选RS构成的列表求交集;通过以下公式计算RSi与RSj之间的相似度P(RSi,RSj),所述RSj为所述求交集得到的集合中的一个RS:其中所述Co_Count(RSi,RSj)为RSi和RSj的共现于同一个session中的次数,R为所述求交集后得到的集合。根据本专利技术一优选实施例,在所述步骤S12之前还包括:查询所述数据库中是否存在与用户当前输入的query表达相同语义的query,如果是,执行所述步骤S12。根据本专利技术一优选实施例,若所述数据库中存在所述用户当前输入的query,或者存在将用户当前输入的query进行归一化处理后得到的query,则确定所述数据库中存在与用户当前输入的query表达相同语义的query。根据本专利技术一优选实施例,所述归一化包括以下处理中的至少一种:对query进行去除停用词的处理;将query中的词替换为指定的同义词;将query中错误的书写转化为正确的书写。根据本专利技术一优选实施例,候选RS簇在所述历史搜索日志中的搜索次数为该候选RS簇包含的候选RS的搜索次数之和。根据本专利技术一优选实施例,在所述步骤S13之后还包括:S14、将所述用户当前输入的query的RS展示在用户当前输入的query的搜索结果页上。根据本专利技术一优选实施例,所述步骤S14具体包括:将选择的每个候选RS簇中搜索次数排在第一个的RS直接展示在所述搜索结果页上,选择的每个候选RS簇中的其他RS以下拉框的形式隐藏展示在所述搜索结果页上。一种提供RS的装置,该装置包括:线下RS挖掘单元和线上RS提供单元;所述线下RS挖掘单元将历史搜索日志中的各query分别作为当前query进行处理,包括:候选子单元,用于将与当前query共现于同一session的其他query构成当前query的候选RS;聚类子单元,用于依据相似度对当前query的候选RS进行聚类得到当前query对应的候选RS簇,保存当前query对应的候选RS簇至数据库;所述线上RS提供单元包括:query获取子单元,用于获取用户当前输入的query;候选获取子单元,用于获取所述数据库中与用户当前输入的query表达相同语义的query对应的候选RS簇;RS确定子单元,用于选择在所述历史搜索日志中搜索次数排在前N1个的候选RS簇,将选择的候选RS簇中在所述历史搜索日志中搜索次数排在前N2个的候选RS确定为用户当前输入的query的RS,所述N1和N2为预设的正整数。根据本专利技术一优选实施例,所述候选子单元,还用于将表达相同语义的query归一化为相同的表述。根据本专利技术一优选实施例,所述线下RS挖掘单元还包括:过滤子单元,用于在所述候选子单元得到的候选RS中,将与当前query共现于同一session的次数小于预设次数阈值的候选RS过滤掉。根据本专利技术一优选实施例,所述聚类子单元进行聚类时所采用的相似度计算方法具体包括:确定与RSi共现于同一个session的query构成的query列表以及各query对应的与所述RSi的共现于同一个session的次数,所述RSi为所述候选RS中的一个RS;将RSi的query列表与所述当前query的候选RS构成的列表求交集;通过以下公式计算RSi与RSj之间的相似度P(RSi,RSj),所述RSj为所述求交集得到的集合中的一个RS:其中所述Co_Count(RSi,RSj)为RSi和RSj的共现于同一个session中的次数,R为所述求交集后得到的集合。根据本专利技术一优选实施例,所述线上RS提供单元还本文档来自技高网
...

【技术保护点】
一种提供相关搜索RS的方法,其特征在于,该方法包括:在线下RS挖掘过程中,将历史搜索日志中的各搜索项query分别作为当前query执行以下步骤S01至步骤S02:S01、将与当前query共现于同一会话session的其他query构成当前query的候选RS;S02、依据相似度对当前query的候选RS进行聚类得到当前query对应的候选RS簇,保存当前query对应的候选RS簇至数据库;线上RS提供过程:S11、获取用户当前输入的query;S12、获取所述数据库中与用户当前输入的query表达相同语义的query对应的候选RS簇;S13、选择在所述历史搜索日志中搜索次数排在前N1个的候选RS簇,将选择的候选RS簇中在所述历史搜索日志中搜索次数排在前N2个的候选RS确定为用户当前输入的query的RS,所述N1和N2为预设的正整数。

【技术特征摘要】
1.一种提供相关搜索RS的方法,其特征在于,该方法包括:在线下RS挖掘过程中,将历史搜索日志中的各搜索项query分别作为当前query执行以下步骤S01至步骤S02:S01、将与当前query共现于同一会话session的其他query构成当前query的候选RS;S02、依据相似度对当前query的候选RS进行聚类得到当前query对应的候选RS簇,保存当前query对应的候选RS簇至数据库;线上RS提供过程:S11、获取用户当前输入的query;S12、获取所述数据库中与用户当前输入的query表达相同语义的query对应的候选RS簇;S13、选择在所述历史搜索日志中搜索次数排在前N1个的候选RS簇,将选择的候选RS簇中在所述历史搜索日志中搜索次数排在前N2个的候选RS确定为用户当前输入的query的RS,所述N1和N2为预设的正整数。2.根据权利要求1所述的方法,其特征在于,在所述步骤S01中还包括:将表达相同语义的query归一化为相同的表述。3.根据权利要求1所述的方法,其特征在于,在所述步骤S01和所述步骤S02之间还包括:将与当前query共现于同一session的次数小于预设次数阈值的候选RS过滤掉。4.根据权利要求1所述的方法,其特征在于,在所述步骤S02中进行聚类时所采用的相似度计算方法具体包括:确定与RSi共现于同一个session的query构成的query列表以及各query对应的与所述RSi的共现于同一个session的次数,所述RSi为所述候选RS中的一个RS;将RSi的query列表与所述当前query的候选RS构成的列表求交集;通过以下公式计算RSi与RSj之间的相似度P(RSi,RSj),所述RSj为所述求交集得到的集合中的一个RS:其中所述Co_Count(RSi,RSj)为RSi和RSj的共现于同一个session中的次数,R为所述求交集后得到的集合。5.根据权利要求1所述的方法,其特征在于,在所述步骤S12之前还包括:查询所述数据库中是否存在与用户当前输入的query表达相同语义的query,如果是,执行所述步骤S12。6.根据权利要求5所述的方法,其特征在于,若所述数据库中存在所述用户当前输入的query,或者存在将用户当前输入的query进行归一化处理后得到的query,则确定所述数据库中存在与用户当前输入的query表达相同语义的query。7.根据权利要求2或6所述的方法,其特征在于,所述归一化包括以下处理中的至少一种:对query进行去除停用词的处理;将query中的词替换为指定的同义词;将query中错误的书写转化为正确的书写。8.根据权利要求1所述的方法,其特征在于,候选RS簇在所述历史搜索日志中的搜索次数为该候选RS簇包含的候选RS的搜索次数之和。9.根据权利要求1所述的方法,其特征在于,在所述步骤S13之后还包括:S14、将所述用户当前输入的query的RS展示在用户当前输入的query的搜索结果页上。10.根据权利要求9所述的方法,其特征在于,所述步骤S14具体包括:将选择的每个候选RS簇中搜索次数排在第一个的RS直接展示在所述搜索结果页上,选择的每个候选RS簇中的其他RS以下拉框的形式隐藏展示在所述搜索结果页上。11.一种提供RS的装置,其特征在于,该装置包括:线下RS挖掘单元和线上RS提供单元;所述线下RS挖掘单元将历史搜索日志中的各query分别作为...

【专利技术属性】
技术研发人员:黄际洲
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1