The invention discloses a method and a device for correcting query words, and a method for constructing a probability dictionary, belonging to the field of computer network search technology. Provide advice on query correction method: obtaining user input queries; text, text in combination with the preset probability in the dictionary query, access probability, and the correction correction suggestion words suggested words; according to the probability of each correction suggestion words, according to predetermined rules of word correction suggestions the recommended screening; correction word filtering is displayed to the user for selection. The device for correcting the query words includes the first acquisition module, the second acquisition module, the selection module and the display module. The methods of constructing probability dictionary include: collecting corpus, counting, calculating and storing the occurrence probability of text and text combination in corpus. The invention improves the accuracy and recall rate of the correction proposal by using the web page corpus and the probability dictionary constructed by the user inquiring the material storehouse of words.
【技术实现步骤摘要】
对查询词提供校正建议的方法、装置、及概率词典构建方法
本专利技术涉及计算机网络搜索
,具体涉及一种对查询词提供校正建议的方法和装置、以及一种构建概率词典的方法。
技术介绍
目前搜索引擎已经成为人们查询信息获取知识的重要来源,使用搜索引擎的主要方式为在搜索框输入查询词进行搜索,而查询词的质量好坏直接影响搜索结果。在搜索框输入查询词时,主要是通过键盘进行输入,在通过键盘输入查询词时,往往会因为用户的指法错误或用户的粗心大意而造成输入错误。例如,在使用拼音输入法输入汉字时,当拼写字符串对应多个可选字词时,用户可能会因选字选词错误而输入了错误的查询词;再例如,在用户输入英文查询词时,可能会因拼写输入错误而输入了错误的查询词。为了提升用户体验,提高用户查询质量,搜索引擎为用户提供了查询词的校正功能。搜索引擎的查询词校正是指:用户在搜索引擎的搜索框输入查询词,搜索引擎的后台校正系统通过相应算法流程,发现用户输入的查询词可能存在错误,搜索引擎的前端在获取查询词的同时,给出若干个校正建议词。目前常用的一种查询校正的方法是基于校正词典实现的,基于校正词典实现查询校正的方法的过程如下:搜集用户的查询日志,提取查询日志中记载的查询-校正点击对(查询-校正点击对是指:用户在搜索框输入查询词时点击输入了查询词对应的校正建议词,则查询词与对应的校正建议词称为查询-校正点击对);统计同一查询-校正点击对的数量,如果同一查询-校正点击对的数量超过预设数量阈值,则确定将超过预设数量阈值的查询-校正点击对存储在校正词典中,其中,校正词典以查询词为键,以校正建议词为值;获取用户当前在搜索 ...
【技术保护点】
一种对查询词提供校正建议的方法,其特征在于,所述方法包括:获取用户输入的所述查询词;将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率;其中,所述预设概率词典中存储有从网页语料库和用户查询词语料库中得到的各文字的出现概率以及各文字组合的出现概率;根据每个所述校正建议词的出现概率,按照预定规则对校正建议词进行筛选;将经筛选的所述校正建议词显示给用户供选择。
【技术特征摘要】
1.一种对查询词提供校正建议的方法,其特征在于,所述方法包括:获取用户输入的所述查询词;将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率;其中,所述预设概率词典中存储有从网页语料库和用户查询词语料库中得到的各文字的出现概率以及各文字组合的出现概率;根据每个所述校正建议词的出现概率,按照预定规则对校正建议词进行筛选;将经筛选的所述校正建议词显示给用户供选择。2.如权利要求1所述的方法,其特征在于,所述文字组合由所述网页语料库和所述用户查询词语料库的文本中相邻的两个文字构成。3.如权利要求1所述的方法,其特征在于,所述预设概率词典中存储的文字的出现概率由以下统计量计算得到:第一统计量为文字在所述网页语料库中出现的次数;第二统计量为文字在所述用户查询词语料库中出现的次数;第三统计量为与文字对应完全相同的字符串的文字在所述网页语料库中出现的次数的总和;第四统计量为与文字对应完全相同的字符串的文字在所述用户查询词语料库中出现的次数的总和。4.如权利要求3所述的方法,其特征在于,文字的出现概率由所述第一统计量除以所述第三统计量的结果与所述第二统计量除以所述第四统计量的结果进行加权处理计算得到。5.如权利要求4所述的方法,其特征在于,所述第一统计量除以所述第三统计量的结果所占的权重小于所述第二统计量除以所述第四统计量的结果所占的权重。6.如权利要求1所述的方法,其特征在于,所述文字组合的出现概率由以下统计量计算得到:第五统计量为文字组合在所述网页语料库中出现的次数;第六统计量为文字组合在所述用户查询词语料库中出现的次数;第七统计量为所述网页语料库中经过分词去重处理后有意义的短语的总和;第八统计量为所述用户查询词语料库中经过分词去重处理后有意义的短语的总和。7.如权利要求6所述的方法,其特征在于,文字组合的出现概率由所述第五统计量除以所述第七统计量的结果与所述第六统计量除以所述第八统计量的结果进行加权处理计算得到。8.如权利要求7所述的方法,其特征在于,所述第五统计量除以所述第七统计量的结果所占的权重小于所述第六统计量除以所述第八统计量的结果所占的权重。9.如权利要求1~8之任一所述的方法,其特征在于,在获取用户输入的所述查询词之后,在将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率之前,该方法还包括:依照所述查询词对应的拼写字符串,构建所述查询词的音节图;其中,所述音节图由音节节点和音节边组成,所述音节边表示所述查询词对应的拼写字符串按照拼写规则分割成的音节组合,所述音节节点表示所述拼写字符串的分割位置。10.如权利要求9所述的方法,其特征在于,在获取用户输入的所述查询词之后,在依照所述查询词对应的拼写字符串,构建所述查询词的音节图之前,还包括:对用户输入的所述查询词进行预处理;其中,所述预处理包括以下处理方式中的一种或多种:大小写统一转换为小写、无效字符转换为空格、删除中文字符之间的空格、繁体中文转换为简体中文。11.如权利要求9所述的方法,其特征在于,所述音节图按照如下方法构建:将所述拼写字符串按照拼写规则分割成所述音节组合;所述音节组合的开始位置和/或结束位置构成所述拼写字符串的所述分割位置;在各所述分割位置分别设置一个所述音节节点;将每一对相邻的所述音节节点进行连线,形成所述音节边;其中,所述一对相邻的所述音节节点由所述音节组合的开始位置和结束位置分别对应的所述音节节点构成;按照预设标注方法,在每个所述音节节点上标注一个标记;在每个所述音节边上标注所对应的音节组合,并将每个所述音节边的方向标注为从所述音节组合的开始位置对应的音节节点指向该音节组合的结束位置对应的音节节点。12.如权利要求9所述的方法,其特征在于,将所述查询词与预设概率词典中的文字、文字组合进行匹配,获取校正建议词、及各所述校正建议词的出现概率,包括:根据所述拼写字符串按照拼写规则分割成的所述音节组合出现的顺序,确定所述音节图中所述音节边和所述音节节点的顺序;依据所述预设概率词典,依次对每个所述音节边获取与该音节边表示的所述音节组合对应的出现概率最高的预设个文字,以及各所述文字的出现概率;将与每个所述音节边对应的出现概率最高的预设个文字按照所述音节边的顺序依次排列,构成与所述查询词对应的所述校正建议词;所述校正建议词的出现概率由构成该校正建议词的每个文字的出现概率的乘积计算得到。13.如权利要求12所述的方法,其特征在于,依据所述预设概率词典,依次对每个所述音节边获取与该音节边表示的所述音节组合对应的出现概率最高的预设个文字,以及各所述文字的出现概率,包括:以第一个音节边作为当前音节边,所述当前音节边表示的所述音节组合为当前音节组合;在所述预设概率词典中搜索出符合所述当前音节组合的文字中出现概率最高的预设个文字及各个文字的出现概率;判断所述当前音节边是否是所述音节图中的最后一个音节边;如果所述当前音节边不是所述音节图中的最后一个音节边,则将所述当前音节边的下一个音节边作为新的当前音节边;从所述预设概率词典中获取与新的当前音节边表示的音节组合相符的出现概率最高的预设个文字,以及各所述文字的出现概率;然后返回判断所述当前音节边是否是所述音节图中的最后一个音节边的步骤;如果所述当前音节边是所述音节图中的最后一个音节边,则执行将与每个所述音节边对应的出现概率最高的预设个文字按照所述音节边的顺序依次排列,构成与所述查询词对应的所述校正建议词;所述校正建议词的出现概率由构成该校正建议词的每个文字的出现概率的乘积计算得到的步骤。14.如权利要求13所述的方法,其特征在于,从所述预设概率词典中获取与新的当前音节边表示的音节组合相符的出现概率最高的预设个文字,以及各文字的出现概率,包括:获取所述新的当前音节边的上一个所述音节边表示的所述音节组合所对应的出现概率最高的预设个文字,记为第一文字,以及所述预设个文字各自的出现概率,记为第一概率;从所述预设概率词典中搜索出以所述第一文字为第一个文字、以所述新的当前音节边表示的音节组合所对应的文字为第二个文字的文字组合中出现概率最高的预设个文字组合,以及各所述文字组合的出现概率,记为第二概率;将所述出现概率最高的预设个文字组合中的第二个文字作为新的当前音节边表示的所述音节组合所对应的出现概率最高的预设个文字;将相对应的所述第二概率除以所述第一概率计算得到的结果作为新的当前音节边表示的所述音节组合所对应的出现概率最高的预设个文字的出现概率。15.如权利要求13所述的方法,其特征在于,如果所述当前音节边不是所述音节图中的最后一个音节边,则将所述当前音节边的下一个音节边作为新的当前音节边;从所述预设概率词典中获取与新的当前音节边表示的音节组合相符的出现概率最高的预设个文字,以及各所述文字的出现概率之后;返回判断所述当前音节边是否是所述音节图中的最后一个音节边的步骤之前,还包括:沿所述音节边的顺序,计算各搜索路径上获取的所述出现概率最高的文字的出现概率的乘积,作为该搜索路径的出现概率;判断所述搜索路径的出现概率是否小于或等于预设剪枝阈值;如果某搜索路径的出现概率小于或等于所述预设剪枝阈值,删除该搜索路径;如果某搜索路径的出现概率大于所述预设剪枝阈值,保留该搜索路径。16.如权利要求1~8、10~15之任一所述的方法,其特征在于,根据每个所述校正建议词的出现概率,按照预定规则对校正建议词进行筛选,包括:按照出现概率由高到低的顺序对所述校正建议词进行排序,形成校正建议词序列;判断所述校正建议词序列中出现概率最高的所述校正建议词与用户输入的所述查询词是否一致;如果所述校正建议词序列中出现概率最高的所述校正建议词与用户当前输入的所述查询词一致,则停止将任一所述校正建议词作为经筛选的所述校正建议词;如果所述校正建议词序列中出现概率最高的所述校正建议词与用户当前输入的所述查询词不一致,则将所述校正建议词序列中出现概率最高的预设个所述校正建议词作为经筛选的所述校正建议词。17.如权利要求16所述的方法,其特征在于,在按照出现概率由高到低的顺序对所述校正建议词进行排序,形成校正建议词序...
【专利技术属性】
技术研发人员:杨珂,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。