一种提供相关搜索的方法和装置制造方法及图纸

技术编号：9113428 阅读：164 留言：0更新日期：2013-09-05 02:36

本发明专利技术提供了一种提供相关搜索（RS）的方法和装置，在线下RS挖掘过程中，将历史搜索日志中的各搜索项（query）分别作为当前query执行以下步骤将与当前query共现于同一会话的其他query构成当前query的候选RS；依据相似度对当前query的候选RS进行聚类得到当前query对应的候选RS簇，保存当前query对应的候选RS簇至数据库；线上RS提供过程：获取数据库中与用户当前输入的query表达相同语义的query对应的候选RS簇；选择搜索次数排在前N1个的候选RS簇，将选择的候选RS簇中搜索次数排在前N2个的候选RS确定为用户当前输入的query的RS。本发明专利技术能够为用户提供更有效的RS，节省用户搜索时间和节约网络资源。

全部详细技术资料下载

【技术实现步骤摘要】
一种提供相关搜索的方法和装置
本专利技术涉及计算机应用
，特别涉及一种提供相关搜索的方法和装置。
技术介绍
搜索效果好不好很多时候取决于用户输入的搜索项（query）是否恰当，但很多时候用户往往并不能准确输入能够获得想要的搜索结果的query，而希望获得一些参考，相关搜索（RS）就是搜索引擎提供的与用户输入的query相似的一系列query，通常可以分布在搜索结果页的下方或者输入框的下方。现有技术中提供RS的方式是根据用户输入的query，查找尽可能包含用户输入的query中大部分的词项（term）的高频query。例如用户输入的query为“明星X”，那么输出的RS如图1所示，包括：“明星X素颜照”、“明星X豪宅”、“明星X男友”、“明星X短发”、“明星X素颜”、“明星X古装”、“明星X生活照”、“明星X比基尼”。然而，现有技术中提供RS的方式存在以下缺陷：其一、可能会造成提供的RS集中在某一个或若干个语义类别上，存在大量的语义类别重复，这就造成给用户的参考信息量很少，如图1中所示的情况，可以看出“明星X素颜照”、“明星X素颜”、“明星X短发”和“...

【技术保护点】
一种提供相关搜索RS的方法，其特征在于，该方法包括：在线下RS挖掘过程中，将历史搜索日志中的各搜索项query分别作为当前query执行以下步骤S01至步骤S02：S01、将与当前query共现于同一会话session的其他query构成当前query的候选RS；S02、依据相似度对当前query的候选RS进行聚类得到当前query对应的候选RS簇，保存当前query对应的候选RS簇至数据库；线上RS提供过程：S11、获取用户当前输入的query；S12、获取所述数据库中与用户当前输入的query表达相同语义的query对应的候选RS簇；S13、选择在所述历史搜索日志中搜索次数排在前N1个的候...

【技术特征摘要】
1.一种提供相关搜索RS的方法，其特征在于，该方法包括：在线下RS挖掘过程中，将历史搜索日志中的各搜索项query分别作为当前query执行以下步骤S01至步骤S02：S01、将与当前query共现于同一会话session的其他query构成当前query的候选RS；S02、依据相似度对当前query的候选RS进行聚类得到当前query对应的候选RS簇，保存当前query对应的候选RS簇至数据库；线上RS提供过程：S11、获取用户当前输入的query；S12、获取所述数据库中与用户当前输入的query表达相同语义的query对应的候选RS簇；S13、选择在所述历史搜索日志中搜索次数排在前N1个的候选RS簇，将选择的候选RS簇中在所述历史搜索日志中搜索次数排在前N2个的候选RS确定为用户当前输入的query的RS，所述N1和N2为预设的正整数。2.根据权利要求1所述的方法，其特征在于，在所述步骤S01中还包括：将表达相同语义的query归一化为相同的表述。3.根据权利要求1所述的方法，其特征在于，在所述步骤S01和所述步骤S02之间还包括：将与当前query共现于同一session的次数小于预设次数阈值的候选RS过滤掉。4.根据权利要求1所述的方法，其特征在于，在所述步骤S02中进行聚类时所采用的相似度计算方法具体包括：确定与RSi共现于同一个session的query构成的query列表以及各query对应的与所述RSi的共现于同一个session的次数，所述RSi为所述候选RS中的一个RS；将RSi的query列表与所述当前query的候选RS构成的列表求交集；通过以下公式计算RSi与RSj之间的相似度P(RSi,RSj)，所述RSj为所述求交集得到的集合中的一个RS：其中所述Co_Count（RSi,RSj）为RSi和RSj的共现于同一个session中的次数，R为所述求交集后得到的集合。5.根据权利要求1所述的方法，其特征在于，在所述步骤S12之前还包括：查询所述数据库中是否存在与用户当前输入的query表达相同语义的query，如果是，执行所述步骤S12。6.根据权利要求5所述的方法，其特征在于，若所述数据库中存在所述用户当前输入的query，或者存在将用户当前输入的query进行归一化处理后得到的query，则确定所述数据库中存在与用户当前输入的query表达相同语义的query。7.根据权利要求2或6所述的方法，其特征在于，所述归一化包括以下处理中的至少一种：对query进行去除停用词的处理；将query中的词替换为指定的同义词；将query中错误的书写转化为正确的书写。8.根据权利要求1所述的方法，其特征在于，候选RS簇在所述历史搜索日志中的搜索次数为该候选RS簇包含的候选RS的搜索次数之和。9.根据权利要求1所述的方法，其特征在于，在所述步骤S13之后还包括：S14、将所述用户当前输入的query的RS展示在用户当前输入的query的搜索结果页上。10.根据权利要求9所述的方法，其特征在于，所述步骤S14具体包括：将选择的每个候选RS簇中搜索次数排在第一个的RS直接展示在所述搜索结果页上，选择的每个候选RS簇中的其他RS以下拉框的形式隐藏展示在所述搜索结果页上。11.一种提供RS的装置，其特征在于，该装置包括：线下RS挖掘单元和线上RS提供单元；所述线下RS挖掘单元将历史搜索日志中的各query分别作为...

【专利技术属性】
技术研发人员：黄际洲，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人