【技术实现步骤摘要】
本专利技术涉及互联网搜索引擎
,尤其是涉及一种对中文查询词进行纠错的 方法及其装置。
技术介绍
在已有的中文查询词纠错技术中,预先学习的中文词库是按照频率排序的,这样 中文词库中的查询词之间处于逻辑无序状态,而中文查询词的纠错过程会将用户输入的中 文查询词与中文词库里的各个中文词进行从头到尾地的比较计算,从而在用户输入的中文 查询词不正确时,确定用于纠错的中文词推荐给用户。然而,查询词的纠错过程对纠错速度的要求是很高的,而无序的中文词库未能充 分利用其内部查询词之间的相似与相异关系,从而会引起许多无用的查询和比较计算。比 如,用户输入“北京奥运会”,按照现在已有的中文查询词纠错方法会计算“北京奥运会”和 “上海世博会”之间的匹配度,因为“北京奥运会”要改写四个字才能变成“上海世博会”,而 这种匹配计算是无效的,因为“北京奥运会”与“上海世博会”之间显然不具备纠错匹配的 可能性;再比如,当用户输入“郭得缸”时,根本不应该考虑“郭得缸”与“和谐社会”是否有 匹配的可能性,但由于“和谐社会”在中文词库中出现的频率可能很高,按照现有的中文查 询词纠错方法,极可能要 ...
【技术保护点】
一种对中文查询词进行纠错的方法,其特征在于,包括:接收输入的中文查询词;将接收到的中文查询词包含的每个字分别转换为拼音,并确定转换后的每个拼音的首字母构成的字母串;在预先学习的各字母串和中文查询词集之间的对应关系中,索引与确定的字母串对应的中文查询词集,其中中文查询词集中的每个中文查询词包含的每个字的拼音的首字母构成的字母串均为与该中文查询词集对应的字母串;在索引到的中文查询词集包含的各中文查询词拼音和与中文查询词拼音对应的中文查询词子集的对应关系中,按照转换得到的中文查询词拼音索引对应的中文查询词子集,其中中文查询词子集中的每个中文查询词转换后得到的查询词拼音均为与该中文 ...
【技术特征摘要】
一种对中文查询词进行纠错的方法,其特征在于,包括接收输入的中文查询词;将接收到的中文查询词包含的每个字分别转换为拼音,并确定转换后的每个拼音的首字母构成的字母串;在预先学习的各字母串和中文查询词集之间的对应关系中,索引与确定的字母串对应的中文查询词集,其中中文查询词集中的每个中文查询词包含的每个字的拼音的首字母构成的字母串均为与该中文查询词集对应的字母串;在索引到的中文查询词集包含的各中文查询词拼音和与中文查询词拼音对应的中文查询词子集的对应关系中,按照转换得到的中文查询词拼音索引对应的中文查询词子集,其中中文查询词子集中的每个中文查询词转换后得到的查询词拼音均为与该中文查询词子集对应的中文查询词拼音;在接收的中文查询词与索引到的中文查询词子集中包含的中文查询词存在相同时,确定接收到的中文查询词无需纠错;否则将索引到的中文查询词子集中的中文查询词作为纠错词进行推荐。2.如权利要求1所述的方法,其特征在于,在索引到的中文查询词集包含的各中文查 询词拼音和与中文查询词拼音对应的中文查询词子集的对应关系中,按照转换得到的中文 查询词拼音索引对应的中文查询词子集,包括若在索引到的中文查询词集中包括转换得到的中文查询词拼音,则在索引到的中文查 询词集包含的各中文查询词拼音和与中文查询词拼音对应的中文查询词子集的对应关系 中,索引与转换得到的中文查询词拼音对应的中文查询词子集;若在索引到的中文查询词集中不包括转换得到的中文查询词拼音,则基于预设的声 母、韵母易错对关系,对转换得到的中文查询词拼音进行至少一次拼音变换;以及针对每次变换得到的中文查询词拼音,在该次变换得到的中文查询词拼音包含在与各 字母串对应的中文查询词集中时,则在各中文查询词集包含的各中文查询词拼音和与中文 查询词拼音对应的中文查询词子集的对应关系中,索引与该次变换得到的中文查询词拼音 对应的中文查询词子集。3.如权利要求2所述的方法,其特征在于,接收到的中文查询词包含的字数越多,在每 次对转换得到的中文查询词拼音变换时允许进行的拼音错误变换种类越多。4.如权利要求1或2所述的方法,其特征在于,每个中文查询词子集中包含的每个中文 查询词分别对应一个出现频率值;将索引到的中文查询词子集中的中文查询词作为纠错词进行推荐,具体为 将索引到的中文查询词子集中对应最大出现频率值的中文查询词作为纠错词进行推 荐;或将索引到的中文查询词子集中出现频率值由大到小排在前N位的出现频率值分别对 应的中文查询词作为纠错词进行推荐,其中N为自然数。5.一种对中文查询词进行纠错的装置,其特征在于,包括 接收单元,用于接收输入的中文查询词;转换单元,用于将接收单元接收到的中文查询词包含的每个字分别转换为拼音; 第一确定单元,用于确定转换单元转换后的每个拼音的首字母构成的字母串;第一索引单元,用于在预先学习的各字母串和中文查询词集之间的对应关系中,索引与第一确定单元确定的字母串对应的中文查询词集,其中中文查询词集中的每个中文查询 词包含的每个字的拼音的首字母构成的字母串均为与该中文查询词集对应的字母串;第二索引单元,用于在第一索引单元索引到的中文查询词集包含的各中文查询词拼音 和与中文查询词拼音对应的中文查询词子集的对应关系中,按照转换单元转换得到的中文 查询词拼音索引对应的中文查询词子集,其中中文查询词子集中的每个中文查询词转换后 得到的查询词拼音均为与该中文查询词子集对应的中文查询词拼音;判断单元,用于判断接收单元接收的中文查询词与第二索引单元索引到的中文查询词 子集中包含的中文查询词是否存在相同的情况;第二确定单元,用于在判断单元的判断结果为是时,确定接收到的中文查询词无需纠错;推荐单元,用于在判断单元的判断结果为否时,将第二索引单元索引到的中文查询词 子集中的中文查询词作为纠错词进行推荐。6.如权利要求5所述的装置,其特征在于,所述第二索引单元具体包括第一索引子单元,用于在第一索引单元索引到的中文查询词集中包括转换单元转换得 到的中文查询词拼音时,在第一索引单元索引到的中文查询词集包含的各中文查询词拼音 和与中文查询词拼音对应的中文查询词子集的对应关系中,索引与转换单元转换得到的中 文查询词拼音对应的中文查询词子集;拼音变换子单元,用于在第一索引单元索引到的中文查询词集中不包括转换单元转换 得到的中文查询词拼音时,基于预设的声母、韵母易错对关系,对换转单元转换得到的中文 查询词拼音进行至少一次拼音变换;第二索引子单元,用于针对拼音变换子单元每次变换得到的中文查询词拼音,在该次 变换得到的中文查询词拼音包含在与各字母串对应的中文查询词集中时,在各中文查询词 集包含的各中文查询词拼音和与中文查询词拼音对应的中文查询词子集的对应关系中,索 引与该次变换得到的中文查询词拼音对应的中文查询词子集。7.一种对中文查询词进行纠错的方法,其特征在于,包括 接收输入的中文查询词;将接收到的中文查询词包含的每个字分别转换为拼音,并 确定转换后的每个拼音的首字母构成的字母串;在预先学习的各字母串和中文查询词集之间的对应关系中,索引与确定的字母串对应 的中文查询词集,其中中文查询词集中的每个中文查询词包含的每个字的拼音的首字母构 成的字母串均为与该中文查询词集对应的字母串;在索引到的中文查询词集包含的各中文查询词拼音和与中文查询词拼音对应的中文 查询词子集...
【专利技术属性】
技术研发人员:孙宏伟,胡珉,罗治国,
申请(专利权)人:中国移动通信集团公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。