对查询词提供校正建议的方法、装置、及概率词典构建方法制造方法及图纸

技术编号:16456039 阅读:24 留言:0更新日期:2017-10-25 20:35
本发明专利技术公开了对查询词提供校正建议的方法和装置,及构建概率词典的方法,属于计算机网络搜索技术领域。对查询词提供校正建议的方法包括:获取用户输入的查询词;将查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各校正建议词的出现概率;根据每个校正建议词的出现概率,按照预定规则对校正建议词进行筛选;将经筛选的校正建议词显示给用户供选择。对查询词提供校正建议的装置包括:第一获取模块、第二获取模块、选取模块、显示模块。构建概率词典的方法包括:收集语料库,统计、计算并存储文字及文字组合在语料库中的出现概率。本发明专利技术利用网页语料库和用户查询词语料库构建的概率词典,提高了校正建议的准确率和召回率。

Method, device and probability dictionary construction method for providing correction proposal for query words

The invention discloses a method and a device for correcting query words, and a method for constructing a probability dictionary, belonging to the field of computer network search technology. Provide advice on query correction method: obtaining user input queries; text, text in combination with the preset probability in the dictionary query, access probability, and the correction correction suggestion words suggested words; according to the probability of each correction suggestion words, according to predetermined rules of word correction suggestions the recommended screening; correction word filtering is displayed to the user for selection. The device for correcting the query words includes the first acquisition module, the second acquisition module, the selection module and the display module. The methods of constructing probability dictionary include: collecting corpus, counting, calculating and storing the occurrence probability of text and text combination in corpus. The invention improves the accuracy and recall rate of the correction proposal by using the web page corpus and the probability dictionary constructed by the user inquiring the material storehouse of words.

【技术实现步骤摘要】
对查询词提供校正建议的方法、装置、及概率词典构建方法
本专利技术涉及计算机网络搜索
,具体涉及一种对查询词提供校正建议的方法和装置、以及一种构建概率词典的方法。
技术介绍
目前搜索引擎已经成为人们查询信息获取知识的重要来源,使用搜索引擎的主要方式为在搜索框输入查询词进行搜索,而查询词的质量好坏直接影响搜索结果。在搜索框输入查询词时,主要是通过键盘进行输入,在通过键盘输入查询词时,往往会因为用户的指法错误或用户的粗心大意而造成输入错误。例如,在使用拼音输入法输入汉字时,当拼写字符串对应多个可选字词时,用户可能会因选字选词错误而输入了错误的查询词;再例如,在用户输入英文查询词时,可能会因拼写输入错误而输入了错误的查询词。为了提升用户体验,提高用户查询质量,搜索引擎为用户提供了查询词的校正功能。搜索引擎的查询词校正是指:用户在搜索引擎的搜索框输入查询词,搜索引擎的后台校正系统通过相应算法流程,发现用户输入的查询词可能存在错误,搜索引擎的前端在获取查询词的同时,给出若干个校正建议词。目前常用的一种查询校正的方法是基于校正词典实现的,基于校正词典实现查询校正的方法的过程如下:搜集用户的查询日志,提取查询日志中记载的查询-校正点击对(查询-校正点击对是指:用户在搜索框输入查询词时点击输入了查询词对应的校正建议词,则查询词与对应的校正建议词称为查询-校正点击对);统计同一查询-校正点击对的数量,如果同一查询-校正点击对的数量超过预设数量阈值,则确定将超过预设数量阈值的查询-校正点击对存储在校正词典中,其中,校正词典以查询词为键,以校正建议词为值;获取用户当前在搜索框输入的查询词;查看获取的查询词是否在校正词典中;如果在校正词典中,则将校正词典中与获取的查询词对应的校正建议词展示给用户。现有基于校正词典实现查询校正的方法,存在以下缺陷:1)该方法将用户的查询日志作为训练语料得到校正词典,但用户的查询日志这种训练语料数量有限,训练出来的校正词典中包含的校正建议词比较稀疏,存在大量需要校正的错误输入无法找到匹配的查询-校正点击对的情况,因此,这种方法的召回率比较低。2)该方法所采用的查询-校正点击对是系统依据用户选择而建立的,缺乏足够的数据支撑与验证,因此,这种方法的准确率也比较低。
技术实现思路
为了解决现有技术的问题,本专利技术提供了一种对查询词提供校正建议的方法和装置,并提供了一种构建概率词典的方法,旨在提高对查询词进行校正的准确率、召回率。为了解决上述问题,本专利技术公开了一种对查询词提供校正建议的方法,所述方法包括:获取用户输入的所述查询词;将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率;其中,所述预设概率词典中存储有从网页语料库和用户查询词语料库中得到的各文字的出现概率以及各文字组合的出现概率;根据每个所述校正建议词的出现概率,按照预定规则对校正建议词进行筛选;将经筛选的所述校正建议词显示给用户供选择。为了解决本专利技术的技术问题,本专利技术还公开了一种构建概率词典的方法,所述方法包括:收集网页作为网页语料库,收集用户输入的查询词作为用户查询词语料库;统计并计算在所述网页语料库和所述用户查询词语料库中各文字的出现概率;统计并计算在所述网页语料库和所述用户查询词语料库中各文字组合的出现概率;将得到的所述各文字的出现概率以及所述各文字组合的出现概率相对应地存储在所述概率词典中。为了解决本专利技术的技术问题,本专利技术还公开了一种对查询词提供校正建议的装置,所述装置包括:第一获取模块,用于获取用户输入的所述查询词;第二获取模块,用于将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率;其中,所述预设概率词典中存储有从网页语料库和用户查询词语料库中得到的各文字的出现概率以及各文字组合的出现概率;选取模块,用于根据每个所述校正建议词的出现概率,按照预定规则对校正建议词进行筛选;显示模块,用于将经筛选的所述校正建议词显示给用户供选择。与现有技术相比,本专利技术可以获得以下技术效果:1)预设概率词典是基于网页语料库和用户查询词语料库构建的,预设概率词典中存储的各文字的出现概率以及各文字组合的出现概率也是基于对网页语料库和用户查询词语料库的统计、计算得到的。由于网页语料库的庞大的数据量几乎可以涵盖可能出现的文字和文字组合,因此,可以很好的保证本专利技术相比于现有技术的更好的召回率。2)本专利技术采用的预设概率词典还基于用户查询词语料库进行统计和计算,得到文字和文字组合的出现概率。由于用户查询词语料库能很好的反映用户的实际搜索需求,从而能更准确的校正用户的输入错误,相比于现有技术提高了校正的准确率。并且,由于用户查询词语料库一般包括了最近的新词、流行词,也能够对错误的新词、热门词进行正确校正,在提供准确率的同时,也具有较高的时效性。3)通过相邻两字的文字组合的概率统计方法,逐字计算文字的出现概率,从而提高了校正建议词的获取的准确性,降低了误纠率,提升了用户体验。4)在实施对查询词提供校正建议的方法时,可构建包含有音节节点和音节边的音节图。根据音节图,从预设概率词典中获取与查询词对应的校正建议词。由于音节图由多个音节节点和多个音节边组成,每个音节边表示查询词对应的拼写的一种音节组合,从而可以实现将查询词对应的拼写的各种音节组合进行遍历得到与查询词对应的校正建议词,增加了校正建议的全面性和准确性,可以进一步提高召回率和准确率。当然,实施本专利技术的任一产品必不一定需要同时达到以上所述的技术效果。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术实施例的第一种对查询词提供校正建议的方法流程图;图2是本专利技术实施例的一种音节图的示意图;图3是本专利技术实施例的第二种对查询词提供校正建议的方法流程图;图4是本专利技术实施例的一种音节分割图的示意图;图5是本专利技术实施例的第三种对查询词提供校正建议的方法流程图;图6是本专利技术实施例的第四种对查询词提供校正建议的方法流程图;图7是本专利技术实施例的一种表示音节组合出现顺序的示意图;图8是本专利技术实施例的一种校正建议词的搜索路径示意图;图9是本专利技术实施例的第五种对查询词提供校正建议的方法流程图;图10是本专利技术实施例的第六种对查询词提供校正建议的方法流程图;图11是本专利技术实施例的第七种对查询词提供校正建议的方法流程图;图12是本专利技术实施例的第八种对查询词提供校正建议的方法流程图;图13是本专利技术实施例的一种构建概率词典的方法流程图;图14是本专利技术实施例的第一种对查询词提供校正建议的装置结构示意图;图15是本专利技术实施例的第二种对查询词提供校正建议的装置结构示意图;图16是本专利技术实施例的第三种对查询词提供校正建议的装置结构示意图;图17是本专利技术实施例的第九种对查询词提供校正建议的方法流程图;图18是本专利技术实施例的第四种对查询词提供校正建议的装置结构示意图。具体实施方式以下将配合附图及实施例来详细说明本专利技术的实施方式,藉此对本专利技术如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。图1为本专利技术实施例本文档来自技高网
...
对查询词提供校正建议的方法、装置、及概率词典构建方法

【技术保护点】
一种对查询词提供校正建议的方法,其特征在于,所述方法包括:获取用户输入的所述查询词;将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率;其中,所述预设概率词典中存储有从网页语料库和用户查询词语料库中得到的各文字的出现概率以及各文字组合的出现概率;根据每个所述校正建议词的出现概率,按照预定规则对校正建议词进行筛选;将经筛选的所述校正建议词显示给用户供选择。

【技术特征摘要】
1.一种对查询词提供校正建议的方法,其特征在于,所述方法包括:获取用户输入的所述查询词;将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率;其中,所述预设概率词典中存储有从网页语料库和用户查询词语料库中得到的各文字的出现概率以及各文字组合的出现概率;根据每个所述校正建议词的出现概率,按照预定规则对校正建议词进行筛选;将经筛选的所述校正建议词显示给用户供选择。2.如权利要求1所述的方法,其特征在于,所述文字组合由所述网页语料库和所述用户查询词语料库的文本中相邻的两个文字构成。3.如权利要求1所述的方法,其特征在于,所述预设概率词典中存储的文字的出现概率由以下统计量计算得到:第一统计量为文字在所述网页语料库中出现的次数;第二统计量为文字在所述用户查询词语料库中出现的次数;第三统计量为与文字对应完全相同的字符串的文字在所述网页语料库中出现的次数的总和;第四统计量为与文字对应完全相同的字符串的文字在所述用户查询词语料库中出现的次数的总和。4.如权利要求3所述的方法,其特征在于,文字的出现概率由所述第一统计量除以所述第三统计量的结果与所述第二统计量除以所述第四统计量的结果进行加权处理计算得到。5.如权利要求4所述的方法,其特征在于,所述第一统计量除以所述第三统计量的结果所占的权重小于所述第二统计量除以所述第四统计量的结果所占的权重。6.如权利要求1所述的方法,其特征在于,所述文字组合的出现概率由以下统计量计算得到:第五统计量为文字组合在所述网页语料库中出现的次数;第六统计量为文字组合在所述用户查询词语料库中出现的次数;第七统计量为所述网页语料库中经过分词去重处理后有意义的短语的总和;第八统计量为所述用户查询词语料库中经过分词去重处理后有意义的短语的总和。7.如权利要求6所述的方法,其特征在于,文字组合的出现概率由所述第五统计量除以所述第七统计量的结果与所述第六统计量除以所述第八统计量的结果进行加权处理计算得到。8.如权利要求7所述的方法,其特征在于,所述第五统计量除以所述第七统计量的结果所占的权重小于所述第六统计量除以所述第八统计量的结果所占的权重。9.如权利要求1~8之任一所述的方法,其特征在于,在获取用户输入的所述查询词之后,在将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率之前,该方法还包括:依照所述查询词对应的拼写字符串,构建所述查询词的音节图;其中,所述音节图由音节节点和音节边组成,所述音节边表示所述查询词对应的拼写字符串按照拼写规则分割成的音节组合,所述音节节点表示所述拼写字符串的分割位置。10.如权利要求9所述的方法,其特征在于,在获取用户输入的所述查询词之后,在依照所述查询词对应的拼写字符串,构建所述查询词的音节图之前,还包括:对用户输入的所述查询词进行预处理;其中,所述预处理包括以下处理方式中的一种或多种:大小写统一转换为小写、无效字符转换为空格、删除中文字符之间的空格、繁体中文转换为简体中文。11.如权利要求9所述的方法,其特征在于,所述音节图按照如下方法构建:将所述拼写字符串按照拼写规则分割成所述音节组合;所述音节组合的开始位置和/或结束位置构成所述拼写字符串的所述分割位置;在各所述分割位置分别设置一个所述音节节点;将每一对相邻的所述音节节点进行连线,形成所述音节边;其中,所述一对相邻的所述音节节点由所述音节组合的开始位置和结束位置分别对应的所述音节节点构成;按照预设标注方法,在每个所述音节节点上标注一个标记;在每个所述音节边上标注所对应的音节组合,并将每个所述音节边的方向标注为从所述音节组合的开始位置对应的音节节点指向该音节组合的结束位置对应的音节节点。12.如权利要求9所述的方法,其特征在于,将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率,包括:根据所述拼写字符串按照拼写规则分割成的所述音节组合出现的顺序,确定所述音节图中所述音节边和所述音节节点的顺序;依据所述预设概率词典,依次对每个所述音节边获取与该音节边表示的所述音节组合对应的出现概率最高的预设个文字,以及各所述文字的出现概率;将与每个所述音节边对应的出现概率最高的预设个文字按照所述音节边的顺序依次排列,构成与所述查询词对应的所述校正建议词;所述校正建议词的出现概率由构成该校正建议词的每个文字的出现概率的乘积计算得到。13.如权利要求12所述的方法,其特征在于,依据所述预设概率词典,依次对每个所述音节边获取与该音节边表示的所述音节组合对应的出现概率最高的预设个文字,以及各所述文字的出现概率,包括:以第一个音节边作为当前音节边,所述当前音节边表示的所述音节组合为当前音节组合;在所述预设概率词典中搜索出符合所述当前音节组合的文字中出现概率最高的预设个文字及各个文字的出现概率;判断所述当前音节边是否是所述音节图中的最后一个音节边;如果所述当前音节边不是所述音节图中的最后一个音节边,则将所述当前音节边的下一个音节边作为新的当前音节边;从所述预设概率词典中获取与新的当前音节边表示的音节组合相符的出现概率最高的预设个文字,以及各所述文字的出现概率;然后返回判断所述当前音节边是否是所述音节图中的最后一个音节边的步骤;如果所述当前音节边是所述音节图中的最后一个音节边,则执行将与每个所述音节边对应的出现概率最高的预设个文字按照所述音节边的顺序依次排列,构成与所述查询词对应的所述校正建议词;所述校正建议词的出现概率由构成该校正建议词的每个文字的出现概率的乘积计算得到的步骤。14.如权利要求13所述的方法,其特征在于,从所述预设概率词典中获取与新的当前音节边表示的音节组合相符的出现概率最高的预设个文字,以及各文字的出现概率,包括:获取所述新的当前音节边的上一个所述音节边表示的所述音节组合所对应的出现概率最高的预设个文字,记为第一文字,以及所述预设个文字各自的出现概率,记为第一概率;从所述预设概率词典中搜索出以所述第一文字为第一个文字、以所述新的当前音节边表示的音节组合所对应的文字为第二个文字的文字组合中出现概率最高的预设个文字组合,以及各所述文字组合的出现概率,记为第二概率;将所述出现概率最高的预设个文字组合中的第二个文字作为新的当前音节边表示的所述音节组合所对应的出现概率最高的预设个文字;将相对应的所述第二概率除以所述第一概率计算得到的结果作为新的当前音节边表示的所述音节组合所对应的出现概率最高的预设个文字的出现概率。15.如权利要求13所述的方法,其特征在于,如果所述当前音节边不是所述音节图中的最后一个音节边,则将所述当前音节边的下一个音节边作为新的当前音节边;从所述预设概率词典中获取与新的当前音节边表示的音节组合相符的出现概率最高的预设个文字,以及各所述文字的出现概率之后;返回判断所述当前音节边是否是所述音节图中的最后一个音节边的步骤之前,还包括:沿所述音节边的顺序,计算各搜索路径上获取的所述出现概率最高的文字的出现概率的乘积,作为该搜索路径的出现概率;判断所述搜索路径的出现概率是否小于或等于预设剪枝阈值;如果某搜索路径的出现概率小于或等于所述预设剪枝阈值,删除该搜索路径;如果某搜索路径的出现概率大于所述预设剪枝阈值,保留该搜索路径。16.如权利要求1~8、10~15之任一所述的方法,其特征在于,根据每个所述校正建议词的出现概率,按照预定规则对校正建议词进行筛选,包括:按照出现概率由高到低的顺序对所述校正建议词进行排序,形成校正建议词序列;判断所述校正建议词序列中出现概率最高的所述校正建议词与用户输入的所述查询词是否一致;如果所述校正建议词序列中出现概率最高的所述校正建议词与用户当前输入的所述查询词一致,则停止将任一所述校正建议词作为经筛选的所述校正建议词;如果所述校正建议词序列中出现概率最高的所述校正建议词与用户当前输入的所述查询词不一致,则将所述校正建议词序列中出现概率最高的预设个所述校正建议词作为经筛选的所述校正建议词。17.如权利要求16所述的方法,其特征在于,在按照出现概率由高到低的顺序对所述校正建议词进行排序,形成校正建议词序...

【专利技术属性】
技术研发人员:杨珂
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1