搜索查询纠错系统及方法技术方案

技术编号:16038199 阅读:23 留言:0更新日期:2017-08-19 20:02
本发明专利技术提供了一种搜索查询纠错系统及方法,其中的系统包括:纠错概率计算装置,用于获取“错误查询词‑正确查询词”对,并计算正确查询词被错写成错误查询词的概率作为纠错概率,其中,错误查询词中包含一个或多个待建议词;查询强度计算装置,用于计算正确查询词被搜索的概率作为查询强度;生成概率计算装置,用于生成“正确查询词‑待建议词”对,并计算所述“正确查询词‑待建议词”对中正确查询词对应的错误查询词被生成待建议词的概率作为生成概率;关联程度确定装置,用于根据所述纠错概率、所述查询强度和所述生成概率,计算待建议词与正确查询词的关联程度。本发明专利技术可提高搜索的效率和精度。

【技术实现步骤摘要】
搜索查询纠错系统及方法
本专利技术涉及互联网
,特别是涉及一种搜索查询纠错系统及方法。
技术介绍
查询建议(querysuggestion)或称查询补全(queryautomaticcompletion,QAC),是指用户输入不完整的查询(query)时,可自动建议完整query的功能,它是搜索系统的重要组成部分,一方面对于简化用户输入及提升用户体验有着重要帮助,另一方面,对于引导用户行为也有显著效果。查询建议系统,其本质是建立用户的不完整query或前缀(本专利技术统称之为:待建议词,token)和完整query之间的关联,这种关联一般通过离线的方式实现:对每个query,提取其所有可能的token,直接建立两者的关联;而token对于不同query的分值,则由query的热度和token与query的匹配度等指标计算得出。在这种框架下,影响查询建议系统性能的主要因素就是query数据源的质量,而作为query重要来源的用户搜索日志,其中难免会包含错误的输入,这就导致查询建议系统中,往往出现大量错误建议结果。进一步地,这类错误的搜索结果,又错误地引导了用户的输入行为,导致用户搜索行为中错误的比例大量增加,循环往复,会对搜索系统会产生极大的伤害。
技术实现思路
为了提高搜索准确度和效率,本专利技术实施例提供一种搜索查询纠错系统及方法。根据本专利技术的一个方面,提供一种搜索查询纠错系统,包括:纠错概率计算装置,用于获取“错误查询词-正确查询词”对,并计算正确查询词被错写成错误查询词的概率作为纠错概率,其中,错误查询词中包含一个或多个待建议词;查询强度计算装置,用于计算正确查询词被搜索的概率作为查询强度;生成概率计算装置,用于生成“正确查询词-待建议词”对,并计算所述“正确查询词-待建议词”对中正确查询词对应的错误查询词被生成待建议词的概率作为生成概率;关联程度确定装置,用于根据所述纠错概率、所述查询强度和所述生成概率,计算待建议词与正确查询词的关联程度。优选的,所述纠错概率计算装置包括:纠错对获取单元,用于获取“错误查询词-正确查询词”对,其中,错误查询词中包括一个或多个待建议词;纠错概率计算单元,用于根据错误查询词与正确查询词的相似度,计算正确查询词被错写成错误查询词的概率作为纠错概率。优选的,所述纠错对获取单元具体用于,从用户日志中获取到所述“错误查询词-正确查询词”对,其中,通过维护查询词典,将所述用户日志中的最新的“错误查询词-正确查询词”对添加到所述查询词典中;优选的,所述纠错对获取单元具体用于,从所述搜索查询纠错系统的历史数据中获取到所述“错误查询词-正确查询词”对,其中,将所述搜索查询纠错系统的输入作为错误查询词,将所述搜索查询纠错系统的输出作为正确查询词。优选的,所述查询强度计算装置具体用于,根据查询词的热度和/或点击率,计算正确查询词被用户搜索的概率作为查询强度。优选的,还包括:查询提取装置,用于从用户历史搜索记录中,提取出正确查询词,并将提取出的正确查询词提供给所述查询强度计算装置。优选的,所述生成概率计算装置包括:“正确查询词-待建议词”对生成单元,用于根据所述纠错概率和所述查询强度,确定“正确查询词-待建议词”对;生成概率计算单元,用于根据“正确查询词-待建议词”对,计算所述“正确查询词-待建议词”对中正确查询词对应的错误查询词被生成待建议词的概率作为生成概率。优选的,所述生成概率计算单元还用于:确定待建议词的使用频率;其中,待建议词的使用频率越低,生成概率越高。优选的,所述关联程度确定装置采用如下公式计算待建议词与正确查询词的关联程度:其中,p(real|token)表示待建议词与正确查询词的关联程度,p(real)表示所述查询强度,p(wrong|real)表示所述纠错概率,p(token|wrong,real)表示所述生成概率。优选的,所述纠错概率计算装置具体还用于,对所述错误查询词进行语义/词义分析,通过对错误查询词提取前缀及非前缀的方式,获取到一个或多个待建议词。根据本专利技术的一个方面,提供一种搜索查询纠错方法,包括:获取用户输入的查询词;将所述用户输入的查询词作为待建议词输入到前述的系统,得到待建议词与正确查询词的关联程度;根据待建议词与正确查询词的关联程度,向用户展示正确查询词。优选的,所述正确查询词为多个,所述方法还包括:根据待建议词与各个正确查询词的关联程度从高至低,向用户展示各个正确查询词。可见,本专利技术实施例提供的搜索查询纠错系统中,通过计算正确查询词被错写成错误查询词的概率作为纠错概率、计算正确查询词被搜索的概率作为查询强度、计算错误查询词被生成待建议词的概率作为生成概率,并最终根据纠错概率、查询强度和生成概率,计算待建议词与正确查询词的关联程度。由于将普通的query到token的两层生成模型扩展为一个三层模型,不但扩大了query召回率,而且增加了模型的表达能力,使其可以处理错误token;使用“正确query”-“错误query”-“token”的结构,而非“错误token”-“正确token”-“正确query”的结果,可以有效避免无意义的召回结果,而且减少了人工假设,可以得到更有意义的结果。可见,本专利技术可提高搜索的精度和效率。附图说明图1是本专利技术实施例中“正确查询词-错误查询词-待建议词”的关系示意图;图2是本专利技术实施例提供的一种搜索查询纠错系统结构示意图;图3是本专利技术实施例提供的一种搜索查询纠错系统的执行示意图;图4是本专利技术实施例提供的一种搜索查询纠错的方法流程图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。基于现有技术的问题,本专利技术提出一种可以主动纠错的搜索查询纠错系统。例如,在用户输入“怏东”等错误token时,仍可建议“快乐大本营”、“快乐东西”等正确结果。本专利技术专利技术人经过分析,发现针对现有技术要解决的主要问题是对token纠错,即输入错误的token,仍可建议正确的query。这其中,又有两个需要解决的问题要点:1、如何生成错误token和正确query之间的关系;2、对于可纠可不纠的歧义token(如“半月”可能是“芈月传”的错误token,也可能是“半月朋友”的正确token),应该采用何种打分策略,使得纠错后对应的query和不纠错对应的query有合适的排序。其中,第二个问题尤其重要,如果过分偏重不纠错,则效果不明显,意义不大;若过分偏重纠错,则可能会召回很多无关的结果。因此本专利技术提出一种统一的对token的打分框架(不区分正确token和错误token),以涵盖纠错和不纠错两种模式,使得同一token召回的query可以在同一量纲上进行合理的比较。参见图1,是本专利技术实施例中“正确查询词-错误查询词-待建议词”的关系示意图。其中:realquery:正确查询词,下文公式中用real表示;wrongquery:错误查询词(用户实际输入的错误查询词),下文公式中用wrong表示;token:待建议词,下文公式中用token表示。对于每个realquery,有M种可能呈现出来的输入方式(wrong_query),每个wrongquery可能产生多种不同的待建议词(to本文档来自技高网...
搜索查询纠错系统及方法

【技术保护点】
一种搜索查询纠错系统,其特征在于,包括:纠错概率计算装置,用于获取“错误查询词‑正确查询词”对,并计算正确查询词被错写成错误查询词的概率作为纠错概率,其中,错误查询词中包含一个或多个待建议词;查询强度计算装置,用于计算正确查询词被搜索的概率作为查询强度;生成概率计算装置,用于生成“正确查询词‑待建议词”对,并计算所述“正确查询词‑待建议词”对中正确查询词对应的错误查询词被生成待建议词的概率作为生成概率;关联程度确定装置,用于根据所述纠错概率、所述查询强度和所述生成概率,计算待建议词与正确查询词的关联程度。

【技术特征摘要】
1.一种搜索查询纠错系统,其特征在于,包括:纠错概率计算装置,用于获取“错误查询词-正确查询词”对,并计算正确查询词被错写成错误查询词的概率作为纠错概率,其中,错误查询词中包含一个或多个待建议词;查询强度计算装置,用于计算正确查询词被搜索的概率作为查询强度;生成概率计算装置,用于生成“正确查询词-待建议词”对,并计算所述“正确查询词-待建议词”对中正确查询词对应的错误查询词被生成待建议词的概率作为生成概率;关联程度确定装置,用于根据所述纠错概率、所述查询强度和所述生成概率,计算待建议词与正确查询词的关联程度。2.如权利要求1所述的系统,其特征在于,所述纠错概率计算装置包括:纠错对获取单元,用于获取“错误查询词-正确查询词”对,其中,错误查询词中包括一个或多个待建议词;纠错概率计算单元,用于根据错误查询词与正确查询词的相似度,计算正确查询词被错写成错误查询词的概率作为纠错概率。3.如权利要求2所述的系统,其特征在于,所述纠错对获取单元具体用于,从用户日志中获取到所述“错误查询词-正确查询词”对,其中,通过维护查询词典,将所述用户日志中的最新的“错误查询词-正确查询词”对添加到所述查询词典中。4.如权利要求2所述的系统,其特征在于,所述纠错对获取单元具体用于,从所述搜索查询纠错系统的历史数据中获取到所述“错误查询词-正确查询词”对,其中,将所述搜索查询纠错系统的输入作为错误查询词,将所述搜索查询纠错系统的输出作为正确查询词。5.如权利要求1所述的系统,其特征在于,所述查询强度计算装置具体用于,根据查询词的热度和/或点击率,计算正确查询词被用户搜索的概率作为查询强度。6.如权利要求1所述的系统,其特征在于,还包括:查询提取装置,用于...

【专利技术属性】
技术研发人员:孙超博苗艳军
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1