形近字判别方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:39957771 阅读:23 留言:0更新日期:2024-01-08 23:48
本申请公开了一种形近字判别方法、装置、电子设备和可读存储介质,属于自然语言处理技术领域。其中,形近字判别方法包括:获取源文字和目标文字;分别将所述源文字和所述目标文字按照一级字进行分词,得到所述源文字对应的第一一级字和所述目标文字对应的第二一级字;根据所述第一一级字和所述第二一级字之间的第一相似度,判别所述目标文字是否为所述源文字的形近字。

【技术实现步骤摘要】

本申请属于自然语言处理,具体涉及一种形近字判别方法、装置、电子设备和可读存储介质


技术介绍

1、目前,形近字的判别通常是对输入文字进行笔顺编码,得到整体笔顺组合单元,根据整体笔顺单元的相似性来判别两个字是否为形近字。但是,这样的判别方式容易把非形近字判别为形近字,准确率较低。例如“咑”的笔画编码是25112112,“国”的笔画编码是25112141,二者只有最后两位不同,会被识别为形近字,但实际上二者并不是形近字。可见,现有的形近字判别方法存在准确率较低的问题。


技术实现思路

1、本申请实施例提供了一种形近字判别方法、装置、电子设备和可读存储介质,能够解决相关技术中形近字判别方法准确率较低的问题。

2、第一方面,本申请实施例提供了一种形近字判别方法,包括:

3、获取源文字和目标文字;

4、分别将所述源文字和所述目标文字按照一级字进行分词,得到所述源文字对应的第一一级字和所述目标文字对应的第二一级字;

5、根据所述第一一级字和所述第二一级字之间的第一相似度,判别本文档来自技高网...

【技术保护点】

1.一种形近字判别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分别将所述源文字和所述目标文字按照一级字进行分词,得到所述源文字对应的第一一级字和所述目标文字对应的第二一级字,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述第一一级字和所述第二一级字之间的第一相似度,判别所述目标文字是否为所述源文字的形近字,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第一总笔画数和所述第二总笔画数,判别所述目标文字是否为所述源文字的形近字,包括:

5.根据权利要求1所述的方法,其特征在于,所述第一一...

【技术特征摘要】

1.一种形近字判别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分别将所述源文字和所述目标文字按照一级字进行分词,得到所述源文字对应的第一一级字和所述目标文字对应的第二一级字,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述第一一级字和所述第二一级字之间的第一相似度,判别所述目标文字是否为所述源文字的形近字,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第一总笔画数和所述第二总笔画数,判别所述目标文字是否为所述源文字的形近字,包括:

5.根据权利要求1所述的方法,其特征在于,所述第一一级字和所述第二一级字相同,所述源文字相对于所述目标文字还包括除所述第一一级字之外的第一文字,或,所述目标文字相对于所述源文字还包括除所述第二一级字之外的第二文字,所述第一文字为一级字或偏旁部首,所述第二文字为一级字或偏旁部首;

6...

【专利技术属性】
技术研发人员:刘朋
申请(专利权)人:咪咕文化科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1