形近字字典的生成方法、装置和形近字纠错方法、装置制造方法及图纸

技术编号:20363502 阅读:47 留言:0更新日期:2019-02-16 16:48
本发明专利技术提供一种形近字字典的生成方法、装置和形近字纠错方法、装置,涉及信息处理技术,以解决形近字纠错难的问题而发明专利技术。该方法包括:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据汉字的字形输入法编码,获取每个汉字与汉字集合中其他汉字之间的编码距离;根据编码距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;根据形近字判断结果为每个汉字生成形近字列表;根据每个汉字的形近字列表,为汉字集合生成形近字字典。本发明专利技术可以应用在搜索引擎中。

【技术实现步骤摘要】
形近字字典的生成方法、装置和形近字纠错方法、装置
本专利技术涉及信息处理
,尤其涉及一种形近字字典的生成方法和装置。
技术介绍
搜索引擎把用户输入的错误查询词自动纠正为正确查询词是搜索过程的重要步骤。在实际的应用过程中,错误查询词主要包括:拼音错误、形近字错误以及多字少字错误等等,其中,形近字错误是最为常见的。含有形近字错误的错误查询词通常不会影响用户阅读和理解,但是对于搜索引擎而言,形近字错误会极大地影响搜索的准确性,从而影响用户使用搜索引擎的满意度。纠正形近字错误需要依赖于形近字字典,搜索引擎根据形近字字典对错误查询词中存在形近字错误的字或者词进行修正,从而获取正确查询词。然而,现有技术并没有提供一种方法能够准确地判断出两个汉字之间是否近似,进而无法提供准确的形近字字典,由于形近字字典不准确,导致修正形近字错误的难度巨大。
技术实现思路
本专利技术实施例提供一种形近字字典的生成方法和装置,以解决修正形近字错误难度大的问题。为了解决上述技术问题,本专利技术是这样实现的:第一方面,本专利技术实施例提供了一种形近字字典的生成方法,包括:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;根据所述形近字判断结果为每个所述汉字生成形近字列表;根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。进一步地,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果包括:将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。进一步地,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果还包括:如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。第二方面,本专利技术实施例还提供一种形近字字典的生成装置,包括:第一获取模块,用于在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;第二获取模块,用于根据所述第一获取模块获取的所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;第三获取模块,用于根据所述第二获取模块获取的编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;第一生成模块,用于根据所述第三获取模块获取的形近字判断结果为每个所述汉字生成形近字列表;第二生成模块,用于根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。进一步地,所述第三获取模块包括:第一获取子模块,用于将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。进一步地,所述第三获取模块还包括:二获取子模块,用于如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。第三方面,本专利技术实施例还提供一种形近字纠错方法,包括:获取用户输入的具有形近字错误的目标错误查询词;根据所述目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据以上所述的形近字字典的生成方法获得的形近字字典生成的正确查询词与错误查询词的对应关系字典。进一步地,所述纠错字典的生成方法包括:获取正确查询词;根据以上所述的形近字字典的生成方法获得的形近字字典,对所述正确查询词中的字进行形近字替换,生成所述正确查询词对应的错误查询词列表;根据所有所述正确查询词对应的错误查询词列表,生成纠错字典。进一步地,根据以上所述的形近字字典的生成方法获得的形近字字典,对所述正确查询词中的字进行形近字替换,生成所述正确查询词对应的错误查询词列表之后,还包括:去除所述错误查询词列表中异常的错误查询词。第四方面,本专利技术实施例还提供一种形近字纠错装置,包括:第四获取模块,用于获取用户输入的具有形近字错误的目标错误查询词;纠错模块,用于根据所述第四获取模块获取的目标错误查询词查找纠错字典,获取目标正确查询词,其中,所述纠错字典为根据以上所述的形近字字典生成的正确查询词与错误查询词的对应关系字典。本专利技术实施例提供的技术方案,能够获取字形输入法中,汉字集合中每个汉字的字形输入法编码,并根据每个汉字与汉字集合中其他汉字之间的编辑距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,从而根据判断结果生成形近字字典,使得生成的形近字字典更准确,进而能够减小形近字的纠错难度,解决了现有技术由于形近字字典不准确,造成纠正形近字错误难度大的问题。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的形近字字典的生成方法的流程图;图2是本专利技术实施例提供的形近字字典的生成装置的结构示意图;图3是图2所示的专利技术实施例提供的形近字字典的生成装置中第三获取模块的结构示意图;图4是本专利技术实施例提供的形近字纠错方法流程图;图5是图4所示的本专利技术实施例提供的形近字纠错方法中生成纠错字典的流程图一;图6是图4所示的本专利技术实施例提供的形近字纠错方法中生成纠错字典的流程图二;图7是本专利技术实施例提供的形近字纠错装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供的形近字字典的生成方法,包括:步骤101,在字形输入法中,获取汉字集合中每个汉字的字形输入法编码。本实施例所述的字形输入法为现有技术中常用的汉字输入法,本实施例不对字形输入法进行具体的限制,在实际的使用过程中,字形输入法可以包括:笔画输入法、五笔输入法、仓颉输入法、郑码输入法或者四角输入法等,此处不做一一赘述。在本实施例中,汉字的字形输入法编码是指:在字形输入法中,生成该汉字对应的计算机程序编码。本实施例不对字形输入法编码的获取方法进行限定,在实际的使用过程中,步骤101可以通过从互联网上爬取的方式获取所有汉字的字形输入法,此处不做赘述。步骤102,根据汉字的字形输入法编码,获取每个汉字与汉字集合中其他汉字之间的编码距离。在本实施例中,编码距离为对两个汉字的字形输入法编码进行相似度计算获得的具体数值,在同一个字形输入法中,本领域技术人员可以采用任意方法计算两个汉字的字形输入法编码进行相似度,此处不做赘述。步骤103,根据编码距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,获取形近字判断结果。具体地,步骤103可以为:将编码距离与预先设置的阈值进行比较,如果编码距离小于阈值,获取形近字判断结果为形近字,否则,形近字判断结果本文档来自技高网...

【技术保护点】
1.一种形近字字典的生成方法,其特征在于,包括:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;根据所述编码距离分别判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;根据所述形近字判断结果为每个所述汉字生成形近字列表;根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。

【技术特征摘要】
1.一种形近字字典的生成方法,其特征在于,包括:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;根据所述编码距离分别判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;根据所述形近字判断结果为每个所述汉字生成形近字列表;根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。2.根据权利要求1所述的方法,其特征在于,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果包括:将所述编码距离与预先设置的阈值进行比较,如果所述编码距离小于所述阈值,获取所述形近字判断结果为形近字,否则,所述形近字判断结果为非形近字。3.根据权利要求2所述的方法,其特征在于,所述根据所述编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果还包括:如果有两种以上所述字形输入法,综合每种所述字形输入法的形近字判断结果,获取最终形近字判断结果。4.一种形近字字典的生成装置,其特征在于,包括:第一获取模块,用于在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;第二获取模块,用于根据所述第一获取模块获取的所述汉字的字形输入法编码,获取每个所述汉字与所述汉字集合中其他汉字之间的编码距离;第三获取模块,用于根据所述第二获取模块获取的编码距离判断每个所述汉字与所述汉字集合中其他汉字之间是否为形近字,获取形近字判断结果;第一生成模块,用于根据所述第三获取模块获取的形近字判断结果为每个所述汉字生成形近字列表;第二生成模块,用于根据每个所述汉字的形近字列表,为所述汉字集合生成形近字字典。5.根据权利要求4所述的装置,其特...

【专利技术属性】
技术研发人员:黄腾玉
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1