搜索查询纠错系统及方法技术方案

技术编号:16038199 阅读:43 留言:0更新日期:2017-08-19 20:02
本发明专利技术提供了一种搜索查询纠错系统及方法,其中的系统包括:纠错概率计算装置,用于获取“错误查询词‑正确查询词”对,并计算正确查询词被错写成错误查询词的概率作为纠错概率,其中,错误查询词中包含一个或多个待建议词;查询强度计算装置,用于计算正确查询词被搜索的概率作为查询强度;生成概率计算装置,用于生成“正确查询词‑待建议词”对,并计算所述“正确查询词‑待建议词”对中正确查询词对应的错误查询词被生成待建议词的概率作为生成概率;关联程度确定装置,用于根据所述纠错概率、所述查询强度和所述生成概率,计算待建议词与正确查询词的关联程度。本发明专利技术可提高搜索的效率和精度。

【技术实现步骤摘要】
搜索查询纠错系统及方法
本专利技术涉及互联网
,特别是涉及一种搜索查询纠错系统及方法。
技术介绍
查询建议(querysuggestion)或称查询补全(queryautomaticcompletion,QAC),是指用户输入不完整的查询(query)时,可自动建议完整query的功能,它是搜索系统的重要组成部分,一方面对于简化用户输入及提升用户体验有着重要帮助,另一方面,对于引导用户行为也有显著效果。查询建议系统,其本质是建立用户的不完整query或前缀(本专利技术统称之为:待建议词,token)和完整query之间的关联,这种关联一般通过离线的方式实现:对每个query,提取其所有可能的token,直接建立两者的关联;而token对于不同query的分值,则由query的热度和token与query的匹配度等指标计算得出。在这种框架下,影响查询建议系统性能的主要因素就是query数据源的质量,而作为query重要来源的用户搜索日志,其中难免会包含错误的输入,这就导致查询建议系统中,往往出现大量错误建议结果。进一步地,这类错误的搜索结果,又错误地引导了用户的输入行为,导致用户本文档来自技高网...
搜索查询纠错系统及方法

【技术保护点】
一种搜索查询纠错系统,其特征在于,包括:纠错概率计算装置,用于获取“错误查询词‑正确查询词”对,并计算正确查询词被错写成错误查询词的概率作为纠错概率,其中,错误查询词中包含一个或多个待建议词;查询强度计算装置,用于计算正确查询词被搜索的概率作为查询强度;生成概率计算装置,用于生成“正确查询词‑待建议词”对,并计算所述“正确查询词‑待建议词”对中正确查询词对应的错误查询词被生成待建议词的概率作为生成概率;关联程度确定装置,用于根据所述纠错概率、所述查询强度和所述生成概率,计算待建议词与正确查询词的关联程度。

【技术特征摘要】
1.一种搜索查询纠错系统,其特征在于,包括:纠错概率计算装置,用于获取“错误查询词-正确查询词”对,并计算正确查询词被错写成错误查询词的概率作为纠错概率,其中,错误查询词中包含一个或多个待建议词;查询强度计算装置,用于计算正确查询词被搜索的概率作为查询强度;生成概率计算装置,用于生成“正确查询词-待建议词”对,并计算所述“正确查询词-待建议词”对中正确查询词对应的错误查询词被生成待建议词的概率作为生成概率;关联程度确定装置,用于根据所述纠错概率、所述查询强度和所述生成概率,计算待建议词与正确查询词的关联程度。2.如权利要求1所述的系统,其特征在于,所述纠错概率计算装置包括:纠错对获取单元,用于获取“错误查询词-正确查询词”对,其中,错误查询词中包括一个或多个待建议词;纠错概率计算单元,用于根据错误查询词与正确查询词的相似度,计算正确查询词被错写成错误查询词的概率作为纠错概率。3.如权利要求2所述的系统,其特征在于,所述纠错对获取单元具体用于,从用户日志中获取到所述“错误查询词-正确查询词”对,其中,通过维护查询词典,将所述用户日志中的最新的“错误查询词-正确查询词”对添加到所述查询词典中。4.如权利要求2所述的系统,其特征在于,所述纠错对获取单元具体用于,从所述搜索查询纠错系统的历史数据中获取到所述“错误查询词-正确查询词”对,其中,将所述搜索查询纠错系统的输入作为错误查询词,将所述搜索查询纠错系统的输出作为正确查询词。5.如权利要求1所述的系统,其特征在于,所述查询强度计算装置具体用于,根据查询词的热度和/或点击率,计算正确查询词被用户搜索的概率作为查询强度。6.如权利要求1所述的系统,其特征在于,还包括:查询提取装置,用于...

【专利技术属性】
技术研发人员:孙超博苗艳军
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1