【技术实现步骤摘要】
形近字确定方法、电子设备和计算机可读存储介质
本专利技术实施例涉及自然语言处理
,特别涉及一种形近字确定方法、电子设备和计算机可读存储介质。
技术介绍
随着网络技术的发展,在许多场景中,需要进行形近字识别。例如,识别网络评论中的变体字、用户手写输入文字场景、图像中文字识别等。相关技术中,形近字的识别方法为:在字形输入法中,获取汉字集合中每个汉字的字形输入法编码;根据汉字的字形输入法编码,获取每个汉字与汉字集合中其他汉字之间的编码距离;根据编码距离判断每个汉字与汉字集合中其他汉字之间是否为形近字,获取形近字判定结果。然而,专利技术人发现相关技术中至少存在如下问题:会把非形近字识别为形近字。例如“咑”的笔画编码是25112112,“国”的笔画编码是25112141,二者只有最后两位不同,满足阈值,会被识别为形近字,但实际上二者并不是形近字。类似的情况比较多,可见,相关技术中存在对形近字的判定结果不准确的问题。
技术实现思路
本专利技术实施方式的目的在于提供一种形近字确定方法、电子设备和计算机可读 ...
【技术保护点】
1.一种形近字确定方法,其特征在于,包括:/n获取第一字符和第二字符的笔画相似度;/n若所述笔画相似度大于预设相似度,则提取所述第一字符和所述第二字符的公共笔画序列;其中,所述公共笔画序列包括所述第一字符和所述第二字符中相同的若干个笔画,所述若干个笔画在所述第一字符和所述第二字符中均连续;/n分别获取所述公共笔画序列在所述第一字符中的第一相对位置和在所述第二字符中的第二相对位置;/n根据所述第一相对位置和所述第二相对位置,确定所述第一字符和所述第二字符是否为形近字。/n
【技术特征摘要】
1.一种形近字确定方法,其特征在于,包括:
获取第一字符和第二字符的笔画相似度;
若所述笔画相似度大于预设相似度,则提取所述第一字符和所述第二字符的公共笔画序列;其中,所述公共笔画序列包括所述第一字符和所述第二字符中相同的若干个笔画,所述若干个笔画在所述第一字符和所述第二字符中均连续;
分别获取所述公共笔画序列在所述第一字符中的第一相对位置和在所述第二字符中的第二相对位置;
根据所述第一相对位置和所述第二相对位置,确定所述第一字符和所述第二字符是否为形近字。
2.根据权利要求1所述的形近字确定方法,其特征在于,所述分别获取所述公共笔画序列在所述第一字符中的第一相对位置和在所述第二字符中的第二相对位置,包括:
分别计算所述公共笔画序列中各笔画在所述第一字符中对应的第一位置特征值;
分别计算所述公共笔画序列中各笔画在所述第二字符中对应的第二位置特征值;
所述根据所述第一相对位置和所述第二相对位置,确定所述第一字符和所述第二字符是否为形近字,包括:
根据所述第一位置特征值和所述第二位置特征值,确定所述第一字符和所述第二字符是否为形近字。
3.根据权利要求2所述的形近字确定方法,其特征在于,所述分别计算所述公共笔画序列中各笔画在所述第一字符中对应的第一位置特征值,包括:
获取所述第一字符中的所述公共笔画序列中各笔画的端点坐标;
根据所述第一字符中的端点坐标,计算所述第一位置特征值;
所述分别计算所述公共笔画序列中各笔画在所述第二字符中对应的第二位置特征值,包括:
获取所述第二字符中的所述公共笔画序列中各笔画的端点坐标;
根据所述第二字符中的端点坐标,计算所述第二位置特征值。
4.根据权利要求3所述的形近字确定方法,其特征在于,所述根据所述第一位置特征值和所述第二位置特征值,确定所述第一字符和所述第二字符是否为形近字,包括:
获取所述第一位置特征值和所述第二位置特征值的比对关系;
根据所述比对关系,确定所述第一字符和所述第二字符是否为形近字。
5.根据权利要求4所述的形近字确定方法,其特征在于,所述比对关系包括:第一比对关系和/或第二比对关系;
所述第一比对关系为第一夹角和第二夹角的比对关系,所述第一位置特征值包括所述第一夹角且所述第二位置特征值包括所述第二夹角,所述第一夹角和所述第二夹角的获取方式如下:
根据所述第一字符中的端点坐标,从所述第一字符中的所述公共笔画序列中的第二个笔画开始,依次计算每一个笔画的第一个端点与前一个笔画的最后一个端点的连线与水平线的第一夹角;
根据所述第二字符中的端点坐标,从所述第二字符中的所述公共笔画序列中的第二个笔画开始,依次计算每一个笔画的第一个端点与前一个笔画的最后一个端点的连线与水平线的第二夹角;
所述第二比...
【专利技术属性】
技术研发人员:高岩峰,
申请(专利权)人:咪咕文化科技有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。