形近字确定方法、电子设备和计算机可读存储介质技术

技术编号:24355410 阅读:52 留言:0更新日期:2020-06-03 02:27
本发明专利技术实施例涉及自然语言处理技术领域,公开了一种形近字确定方法、电子设备和计算机可读存储介质。本发明专利技术中,上述形近字确定方法包括:获取第一字符和第二字符的笔画相似度;若所述笔画相似度大于预设相似度,则提取所述第一字符和所述第二字符的公共笔画序列;其中,所述公共笔画序列包括所述第一字符和所述第二字符中相同的若干个笔画,所述若干个笔画在所述第一字符和所述第二字符中均连续;分别获取所述公共笔画序列在所述第一字符中的第一相对位置和在所述第二字符中的第二相对位置;根据所述第一相对位置和所述第二相对位置,确定所述第一字符和所述第二字符是否为形近字,使得可以提高形近字判定结果的准确性。

Methods for determining the shape near words, electronic equipment and computer readable storage medium

【技术实现步骤摘要】
形近字确定方法、电子设备和计算机可读存储介质
本专利技术实施例涉及自然语言处理
,特别涉及一种形近字确定方法、电子设备和计算机可读存储介质。
技术介绍
随着网络技术的发展,在许多场景中,需要进行形近字识别。例如,识别网络评论中的变体字、用户手写输入文字场景、图像中文字识别等。相关技术中,形近字的识别方法为:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据汉字的字形输入法编码,获取每个汉字与汉字集合中其他汉字之间的编码距离;根据编码距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,获取形近字判定结果。然而,专利技术人发现相关技术中至少存在如下问题:会把非形近字识别为形近字。例如“咑”的笔画编码是25112112,“国”的笔画编码是25112141,二者只有最后两位不同,满足阈值,会被识别为形近字,但实际上二者并不是形近字。类似的情况比较多,可见,相关技术中存在对形近字的判定结果不准确的问题。
技术实现思路
本专利技术实施方式的目的在于提供一种形近字确定方法、电子设备和计算机可读存储介质,使得可以提高形近字判定结果的准确性。为解决上述技术问题,本专利技术的实施方式提供了一种形近字确定方法,包括以下步骤:获取第一字符和第二字符的笔画相似度;若所述笔画相似度大于预设相似度,则提取所述第一字符和所述第二字符的公共笔画序列;其中,所述公共笔画序列包括所述第一字符和所述第二字符中相同的若干个笔画,所述若干个笔画在所述第一字符和所述第二字符中均连续;分别获取所述公共笔画序列在所述第一字符中的第一相对位置和在所述第二字符中的第二相对位置;根据所述第一相对位置和所述第二相对位置,确定所述第一字符和所述第二字符是否为形近字。本专利技术的实施方式还提供了一种形近字确定装置,包括:第一获取模块,用于获取第一字符和第二字符的笔画相似度;提取模块,用于若所述笔画相似度大于预设相似度,则提取所述第一字符和所述第二字符的公共笔画序列;其中,所述公共笔画序列包括所述第一字符和所述第二字符中相同的若干个笔画,所述若干个笔画在所述第一字符和所述第二字符中均连续;第二获取模块,用于分别获取所述公共笔画序列在所述第一字符中的第一相对位置和在所述第二字符中的第二相对位置;确定模块,用于根据所述第一相对位置和所述第二相对位置,确定所述第一字符和所述第二字符是否为形近字。本专利技术的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的形近字确定方法。本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的形近字确定方法。本专利技术实施方式相对于现有技术而言获取第一字符和第二字符的笔画相似度;若笔画相似度大于预设相似度,则提取第一字符和第二字符的公共笔画序列;其中,公共笔画序列包括第一字符和第二字符中相同的若干个笔画,所述若干个笔画在第一字符和第二字符中均连续;分别获取公共笔画序列在第一字符中的第一相对位置和在第二字符中的第二相对位置;根据第一相对位置和第二相对位置,确定第一字符和第二字符是否为形近字。第一字符和第二字符的笔画相似度大于预设相似度,表明第一字符和第二字符为形近字的可能性较大。在确定笔画相似度大于预设相似度之后,再提取的第一字符和第二字符之间的公共笔画序列,有利于保证提取的公共笔画序列中的笔画数目较多,从而使得公共笔画序列在第一字符中的第一相对位置和在第二字符中的第二相对位置更能体现第一字符和第二字符之间结构的差异。本专利技术实施方式通过将笔画相似度与公共笔画序列在第一字符和第二字符中结构的差异结合起来,来确定第一字符和第二字符是否为形近字,有利于避免仅通过笔画相似度确定是否为形近字所造成的误判,提高了形近字判定的准确性。另外,所述分别获取所述公共笔画序列在所述第一字符中的第一相对位置和在所述第二字符中的第二相对位置,包括:分别计算所述公共笔画序列中各笔画在所述第一字符中对应的第一位置特征值;分别计算所述公共笔画序列中各笔画在所述第二字符中对应的第二位置特征值;所述根据所述第一相对位置和所述第二相对位置,确定所述第一字符和所述第二字符是否为形近字,包括:根据所述第一位置特征值和所述第二位置特征值,确定所述第一字符和所述第二字符是否为形近字。即公共笔画序列中的每一个笔画在第一字符中对应有第一位置特征值,在第二字符中对应有第二位置特征值。结合公共笔画序列中的每一个笔画对应的第一位置特征值和第二位置特征值,有利于进一步提高形近字判定的准确性。另外,所述分别计算所述公共笔画序列中各笔画在所述第一字符中对应的第一位置特征值,包括:获取所述第一字符中的所述公共笔画序列中各笔画的端点坐标;根据所述第一字符中的端点坐标,计算所述第一位置特征值;所述分别计算所述公共笔画序列中各笔画在所述第二字符中的对应第二位置特征值,包括:获取所述第二字符中的所述公共笔画序列中各笔画的端点坐标;根据所述第二字符中的端点坐标,计算所述第二位置特征值。提供了一种第一位置特征值和第二位置特征值的具体计算方式,通过分别获取第一字符和第二字符中的公共笔画序列中各笔画的端点坐标,方便了准确计算第一位置特征值和第二位置特征值,从而进一步提高形近字判定结果的准确性。另外所述根据所述n-1个第一差值和所述n-1个第二差值,确定所述第一字符和所述第二字符是否为形近字,包括:若所述n-1个第一差值d和所述n-1个第二差值均小于预设差值,则确定所述第一字符和所述第二字符为形近字。n-1个第一差值和n-1个第二差值均小于预设差值,表明公共笔画序列中从第二个笔画开始,每一个笔画在第一字符和第二字符中的结构差异均较小,属于形近字的可能性很大。因此,通过在确定n-1个第一差值和n-1个第二差值均小于预设差值后确定第一字符和第二字符为形近字,有利于进一步提高形近字判定的准确性。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。图1是根据本专利技术第一实施方式中的形近字确定方法的流程图;图2是根据本专利技术第二实施方式中的形近字确定方法的流程图;图3是根据本专利技术第三实施方式中的形近字确定装置的示意图;图4是根据本专利技术第四实施方式中的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本专利技术的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。本专利技术的第一实施方式涉及一种形近字确定方法本文档来自技高网...

【技术保护点】
1.一种形近字确定方法,其特征在于,包括:/n获取第一字符和第二字符的笔画相似度;/n若所述笔画相似度大于预设相似度,则提取所述第一字符和所述第二字符的公共笔画序列;其中,所述公共笔画序列包括所述第一字符和所述第二字符中相同的若干个笔画,所述若干个笔画在所述第一字符和所述第二字符中均连续;/n分别获取所述公共笔画序列在所述第一字符中的第一相对位置和在所述第二字符中的第二相对位置;/n根据所述第一相对位置和所述第二相对位置,确定所述第一字符和所述第二字符是否为形近字。/n

【技术特征摘要】
1.一种形近字确定方法,其特征在于,包括:
获取第一字符和第二字符的笔画相似度;
若所述笔画相似度大于预设相似度,则提取所述第一字符和所述第二字符的公共笔画序列;其中,所述公共笔画序列包括所述第一字符和所述第二字符中相同的若干个笔画,所述若干个笔画在所述第一字符和所述第二字符中均连续;
分别获取所述公共笔画序列在所述第一字符中的第一相对位置和在所述第二字符中的第二相对位置;
根据所述第一相对位置和所述第二相对位置,确定所述第一字符和所述第二字符是否为形近字。


2.根据权利要求1所述的形近字确定方法,其特征在于,所述分别获取所述公共笔画序列在所述第一字符中的第一相对位置和在所述第二字符中的第二相对位置,包括:
分别计算所述公共笔画序列中各笔画在所述第一字符中对应的第一位置特征值;
分别计算所述公共笔画序列中各笔画在所述第二字符中对应的第二位置特征值;
所述根据所述第一相对位置和所述第二相对位置,确定所述第一字符和所述第二字符是否为形近字,包括:
根据所述第一位置特征值和所述第二位置特征值,确定所述第一字符和所述第二字符是否为形近字。


3.根据权利要求2所述的形近字确定方法,其特征在于,所述分别计算所述公共笔画序列中各笔画在所述第一字符中对应的第一位置特征值,包括:
获取所述第一字符中的所述公共笔画序列中各笔画的端点坐标;
根据所述第一字符中的端点坐标,计算所述第一位置特征值;
所述分别计算所述公共笔画序列中各笔画在所述第二字符中对应的第二位置特征值,包括:
获取所述第二字符中的所述公共笔画序列中各笔画的端点坐标;
根据所述第二字符中的端点坐标,计算所述第二位置特征值。


4.根据权利要求3所述的形近字确定方法,其特征在于,所述根据所述第一位置特征值和所述第二位置特征值,确定所述第一字符和所述第二字符是否为形近字,包括:
获取所述第一位置特征值和所述第二位置特征值的比对关系;
根据所述比对关系,确定所述第一字符和所述第二字符是否为形近字。


5.根据权利要求4所述的形近字确定方法,其特征在于,所述比对关系包括:第一比对关系和/或第二比对关系;
所述第一比对关系为第一夹角和第二夹角的比对关系,所述第一位置特征值包括所述第一夹角且所述第二位置特征值包括所述第二夹角,所述第一夹角和所述第二夹角的获取方式如下:
根据所述第一字符中的端点坐标,从所述第一字符中的所述公共笔画序列中的第二个笔画开始,依次计算每一个笔画的第一个端点与前一个笔画的最后一个端点的连线与水平线的第一夹角;
根据所述第二字符中的端点坐标,从所述第二字符中的所述公共笔画序列中的第二个笔画开始,依次计算每一个笔画的第一个端点与前一个笔画的最后一个端点的连线与水平线的第二夹角;
所述第二比...

【专利技术属性】
技术研发人员:高岩峰
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1