【技术实现步骤摘要】
形近字字典的生成方法、装置和形近字纠错方法、装置
本专利技术涉及信息处理
,尤其涉及一种形近字字典的生成方法和装置。
技术介绍
搜索引擎把用户输入的错误查询词自动纠正为正确查询词是搜索过程的重要步骤。在实际的应用过程中,错误查询词主要包括:拼音错误、形近字错误以及多字少字错误等等,其中,形近字错误是最为常见的。含有形近字错误的错误查询词通常不会影响用户阅读和理解,但是对于搜索引擎而言,形近字错误会极大地影响搜索的准确性,从而影响用户使用搜索引擎的满意度。纠正形近字错误需要依赖于形近字字典,搜索引擎根据形近字字典对错误查询词中存在形近字错误的字或者词进行修正,从而获取正确查询词。然而,现有技术并没有提供一种方法能够准确地判断出两个汉字之间是否近似,进而无法提供准确的形近字字典,由于形近字字典不准确,导致修正形近字错误的难度巨大。
技术实现思路
本专利技术实施例提供一种形近字字典的生成方法和装置,以解决修正形近字错误难度大的问题。为了解决上述技术问题,本专利技术是这样实现的:第一方面,本专利技术实施例提供了一种形近字字典的生成方法,包括:在字形输入法中,获取汉字集合 ...
【技术保护点】
1.一种形近字字典的生成方法,其特征在于,包括:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;根据所述编码距离分别判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;根据所述形近字判断结果为每个所述汉字生成形近字列表;根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。
【技术特征摘要】
1.一种形近字字典的生成方法,其特征在于,包括:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;根据所述编码距离分别判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;根据所述形近字判断结果为每个所述汉字生成形近字列表;根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。2.根据权利要求1所述的方法,其特征在于,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果包括:将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。3.根据权利要求2所述的方法,其特征在于,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果还包括:如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。4.一种形近字字典的生成装置,其特征在于,包括:第一获取模块,用于在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;第二获取模块,用于根据所述第一获取模块获取的所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;第三获取模块,用于根据所述第二获取模块获取的编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;第一生成模块,用于根据所述第三获取模块获取的形近字判断结果为每个所述汉字生成形近字列表;第二生成模块,用于根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。5.根据权利要求4所述的装置,其特...
【专利技术属性】
技术研发人员:黄腾玉,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。