查询语句与网页相似度的确定方法、装置、终端及服务器制造方法及图纸

技术编号:11005477 阅读:126 留言:0更新日期:2015-02-05 11:56
本发明专利技术实施例公开了查询语句与网页相似度的确定方法、装置、终端及服务器。该方法包括:通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句;根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。本实施例提供的技术方案,可以提高搜索引擎对任一查询语句的网页召回率,使得搜索引擎能够针对表现形式不同而语义相似的各条查询句,返回相差较小的网页集合,提升用户对查询结果的满意度。

【技术实现步骤摘要】
查询语句与网页相似度的确定方法、装置、终端及服务器
本专利技术实施例涉及数据处理
,尤其涉及查询语句与网页相似度的确定方 法、装置、终端及服务器。
技术介绍
目前,搜索引擎在为用户提供搜索服务时,通常是先获取用户在搜索栏中所输入 的指令,基于该指令生成查询句,然后计算该查询句与大量网页之间的相关性,最后将相关 性较高的网页所对应的链接作为本次查询结果呈现给用户,W供用户点击查看。 由于基于相关性计算的网页排名直接决定了搜索引擎的优劣和用户体验质量,因 此如何能够准确高效的计算出查询语句和网页之间的相关性是搜索引擎的核也问题点。然 而,现有技术在得到用户输入的查询句之后,并未对该查询句进行其他处理,而是采取硬匹 配的方法,直接计算查询语句和网页的相关性,该样一方面使得搜索引擎对与查询语句相 关的网页的召回率较低;另一方面使得搜索引擎分别在表现形式不同而语义相似的各条查 询句下,所得到的网页集合相差较大,用户搜索体验差。
技术实现思路
本专利技术实施例提供查询语句与网页相似度的确定方法、装置、终端及服务器,W提 高搜索引擎对任一查询语句的网页召回率,使得搜索引擎能够针对表现形式不同而语义相 似的各条查询句,返回相差较小的网页集合,提升用户对查询结果的满意度。 第一方面,本专利技术实施例提供了一种查询语句与网页相似度的确定方法,该方法 包括: 通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条 候选语句; 根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网 页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。 第二方面,本专利技术实施例还提供了一种查询语句与网页相似度的确定方法,该方 法包括: 云端服务器获取终端发送的目标查询语句; 所述云端服务器通过预先创建的短语翻译模型,将所述目标查询语句翻译为具有 相似语义的至少一条候选语句,并下发给所述终端,W指示所述终端根据所述至少一条候 选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。 第H方面,本专利技术实施例还提供了一种查询语句与网页相似度的确定方法,该方 法包括: 终端向云端服务器发送目标查询语句,W指示所述云端服务器通过预先创建的短 语翻译模型,将所述目标查询语句翻译为具有相似语义的至少一条候选语句; 所述终端接收所述云端服务器下发的至少一条候选语句,根据所述至少一条候选 语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。 第四方面,本专利技术实施例提供了一种查询语句与网页相似度的确定装置,该装置 包括: 候选翻译模块,用于通过预先创建的短语翻译模型,将目标查询语句翻译为具有 相似语义的至少一条候选语句; 相似度确定模块,用于根据所述至少一条候选语句与网页主题句之间的相似度, 确定目标查询语句和网页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。 第五方面,本专利技术实施例提供了一种云端服务器,该服务器包括: 查询语句获取模块,用于获取终端发送的目标查询语句; 查询语句翻译模块,用于通过预先创建的短语翻译模型,将所述目标查询语句翻 译为具有相似语义的至少一条候选语句,并下发给所述终端,W指示所述终端根据所述至 少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似 度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。 第六方面,本专利技术实施例提供了一种终端,该终端包括: 查询语句发送模块,用于向云端服务器发送目标查询语句,W指示所述云端服务 器通过预先创建的短语翻译模型,将所述目标查询语句翻译为具有相似语义的至少一条候 选语句; 相似度确定模块,用于接收所述云端服务器下发的至少一条候选语句,根据所述 至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相 似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到 的用于描述网页主要内容的语句。 在本专利技术实施例中,在获取到用户输入的查询语句后,并未采取硬匹配的方法来 直接计算查询语句和网页的相关性,而是:先通过预先创建的短语翻译模型,对查询语句进 行语义相似的转录,W得到多条与该查询语句具有相似语义的候选语句;然后,基于转录 结果与网页主题句之间的相关性,来计算查询语句与网页主题句之间的相关性。本专利技术实 施例提供的技术方案,一方面能够提高搜索引擎在任一查询语句下的网页召回率,另一方 面使得搜索引擎能够针对表现形式不同而语义相似的各条查询句,返回相差较小的网页集 合,提升用户的搜索体验。 【附图说明】 图1是本专利技术实施例一提供的一种查询语句与网页相似度的确定方法的流程示 意图; 图2是本专利技术实施例二提供的一种查询语句与网页相似度的确定方法的流程示 意图; 图3是本专利技术实施例H提供的一种查询语句与网页相似度的确定方法的流程示 意图; 图4是本专利技术实施例四提供的一种查询语句与网页相似度的确定方法的流程示 意图; 图5A是本专利技术实施例五提供的一种查询语句与网页相似度的确定方法的流程示 意图; [00巧]图5B是本专利技术实施例五提供的一种候选短语之间在组合为候选语句时的连接关 系W意图; 图6是本专利技术实施例六提供的另一种查询语句与网页相似度的确定方法的流程 示意图; 图7是本专利技术实施例走提供的再一种查询语句与网页相似度的确定方法的流程 示意图; 图8是本专利技术实施例八提供的一种优选的查询语句与网页相似度的确定方法的 流程意图; 图9是本专利技术实施例九提供的一种查询语句与网页相似度的确定装置的结构示 意图; 图10是本专利技术实施例十提供的一种云端服务器的结构示意图; 图11是本专利技术实施例十一提供的一种终端的结构示意图; 图12是本专利技术实施例十二提供的一种查询语句与网页相似度的确定方法在信息 检索系统上的应用流程示意图。 【具体实施方式】 下面结合附图和实施例对本专利技术作进一步的详细说明。可W理解的是,此处所描 述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。 查询语句和网页的相关性计算是搜索引擎的核也问题点。正是网页的基于相关性 计算的排名决定了搜索引擎的优劣和用户体验质量。查询语句表现形式多种多样,同样的 语义可W用不同的句子表达,而相同的词语也具有多义性。例如,查询日本收购的中国企 业的时候,可W采用如下多种查询语句;被日本收购的中国企业、日本收购了哪些中国 企业、中国企业日本收购、本文档来自技高网...
查询语句与网页相似度的确定方法、装置、终端及服务器

【技术保护点】
一种查询语句与网页相似度的确定方法,其特征在于,包括:通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句;根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。

【技术特征摘要】
1. 一种查询语句与网页相似度的确定方法,其特征在于,包括: 通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选 语句; 根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主 题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。2. 根据权利要求1所述的查询语句与网页相似度的确定方法,其特征在于,在通过预 先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句之前, 还包括: 确定翻译双语对语料;其中,所述翻译双语对语料中翻译双语对的源语言句子为查询 语句,目标语言句子为网页主题句; 对所述翻译双语对语料进行训练,以创建短语翻译模型;所述短语翻译模型的输入为 查询语句,输出包括与输入具有相似语义的至少一条候选语句。3. 根据权利要求2所述的查询语句与网页相似度的确定方法,其特征在于,确定翻译 双语对语料,包括: 基于用户点击数据,确定翻译双语对语料; 其中,所述用户点击数据包括:查询日志中所统计的用户输入的查询语句,与用户在返 回的多个查询结果中所点击的网页链接之间的映射关系; 所述翻译双语对语料包括:由查询日志中所包含的查询语句,和与该查询语句对应的 网页链接中点击率超过设定点击阈值的网页链接的网页主题句,分别作为源语言句子和目 标语言句子组成的第一翻译双语对;和/或,由查询日志中所包含的满足预设条件的两条 目标查询语句分别作为源语言句子和目标语言句子组成的第二翻译双语对;所述预设条 件,包括:所述两条目标查询语句所分别对应的网页主题句集合之间的相似度大于设定的 第一阈值,所述两条目标查询语句之间的相似度小于设定的第二阈值。4. 根据权利要求1-3中任一项所述的查询语句与网页相似度的确定方法,其特征在 于,根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页主 题句的相似度,包括: 基于如下公式,确定目标查询语句与网页主题句之间的相似度:其中,sim(q,t)为目标查询语句q与网页主题句t之间的相似度; N为所述至少一条候选语句的总条数; score (tranSi (q))为通过所述短语翻译模型将目标查询语句翻译为所述至少一条候 选语句中的第i条候选语句transjq)的翻译概率; BLElKtransi (q),t)为 tranSi (q)与 t 之间的相似度。5. 根据权利要求4所述的查询语句与网页相似度的确定方法,其特征在于,在根据所 述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的 相似度之前,还包括: 基于语言模型字符串匹配算法,计算所述至少一条候选语句与网页主题句的相似度。6. 根据权利要求5所述的查询语句与网页相似度的确定方法,其特征在于,基于语言 模型字符串匹配算法,计算所述至少一条候选语句与网页主题句的相似度,包括: 按照如下公式,计算所述至少一条候选语句与网页主题句的相似度:其中,BPUransJq),!:)为transjq)与t对应的惩罚权重,如果transjq)的分词个数 小于等于t的分词个数,则BPUransi (q), t)的取值为exp(l-x/y),x为t的分词个数,y为 tranSi (q)的分词个数,如果tranSi (q)的分词个数大于t的分词个数,则BP Uransi (q),t) 的取值为1 ; Pn为采用n元语言模型所计算的tranSi (q)和t中匹配成功的次数。7. 根据权利要求4所述的查询语句与网页相似度的确定方法,其特征在于,通过预先 创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句,包括: 对目标查询语句进行短语的划分,得到至少一个查询短语; 遍历各个查询短语,将当前遍历到的查询短语翻译为具有相似语义的至少一个候选短 语; 将各个查询短语对应的至少一个候选短语进行组合,得到至少一条候选语句; 在根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页 主题句的相似度之前,还包括: 按照如下公式,计算通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选 语句中的第i条候选语句transjq)的翻译概率:其中,K为目标查询语句所包含的查询短语的个数; Pr (ek |fk)为通过所述短语翻译模型将fk翻译为ek的翻译概率,f k为目标查询语句f 的第k个查询短语,ek为候选语句e中的第k个候选短语。8. 根据权利要求7所述的查询语句与网页相似度的确定方法,其特征在于,在根据所 述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页主题句的相似 度之前,还包括: 按照如下公式,计算Pr(ek|fk):其中,M为加在ek和fk上的所有特征函数的总个数; hm(ek,fk)为用于表征将fk翻译为ek的翻译概率的第m个特征函数; hm(e' k,fk)为用于表征将fk翻译为e' k的翻译概率的第m个特征函数,e' k为根据所 述短语翻译模型对fk进行翻译得到的各个候选短语; 入m为第m个特征函数的权重。9. 根据权利要求8所述的查询语句与网页相似度的确定方法,其特征在于,第m个特征 函数为与双向翻译概率对应的函数、与语言模型对应的函数、或者根据短语分词个数得到 的函数。10. 根据权利要求7所述的查询语句与网页相似度的确定方法,其特征在于,将各个查 询短语对应的至少一个候选短语进行组合,得到至少一条候选语句,包括: 按照如下数据结构方式,存储各个查询短语对应的至少一个候选短语: 分别为各个候选短语创建一个节点,节点包括候选短语和至少一个后继指针,所述至 少一个后继指针用于指向目标查询语句中与该候选短语对应的查询短语的下一个查询短 语所对应的至少一个候选短语节点;并记录目标查询语句中第一个查询短语对应的各个候 选短语所在节点的存储位置; 根据记录的内容,对所存储的候选短语进行读取,以确定至少一条候选语句。11. 根据权利要求10所述的查询语句与网页相似度的确定方法,其特征在于,节点还 包括将查询短语翻译为候选短语的翻译概率; 根据记录的内容,对所存储的候选短语进行读取,以确定至少一条候选语句,包括: 根据记录的内容,读取存储的各个节点所包括的候选短语; 根据读取结果,生成由各个查询短语对应的至少一个候选短语组合得到的至少一条候 选语句,及各条候选语句的翻译概率; 从所述至少一条候选语句中挑选出翻译概率排名位于前T的候选语句,用于作为与网 页主题句进行相似度计算的候选语句,其中T为大于等于1的整数。12. -种查询语句与网页相似度的确定方法,其特征在于,包括: 云端服务器获取终端发送的目标查询语句; 所述云端服务器通过预先创建的短语翻译模型,将所述目标查询语句翻译为具有相似 语义的至少一条候选语句,并下发给所述终端,以指示所述终端根据所述至少一条候选语 句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。13. -种查询语句与网页相似度的确定方法,其特征在于,包括: 终端向云端服务器发送目标查询语句,以指示所述云端服务器通过预先创建的短语翻 译模型,将所述目标查询语句翻译为具有相似语义的至少一条候选语句; 所述终端接收所述云端服务器下发的至少一条候选语句,根据所述至少一条候选语句 与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。14. 一种查询语句与网页相似度的确定装置,其特征在于,包括: 候选翻译模块,用...

【专利技术属性】
技术研发人员:呉先超
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1