System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 繁体字的识别方法、系统及存储介质技术方案_技高网

繁体字的识别方法、系统及存储介质技术方案

技术编号:41210242 阅读:6 留言:0更新日期:2024-05-09 23:32
本公开提供一种繁体字的识别方法、系统及存储介质。方法包括:获取汉字字典集;根据汉字字典集,构造单个汉字的数据集,数据集包括单个汉字的图像样本和笔画序列标签;判断笔画序列标签是否出现多次,响应于笔画序列标签未出现多次,筛选笔画序列标签对应的数据集为繁体字数据集;选取一部分繁体字数据集,集合为繁体字训练集,将另一部分繁体数据集集合为繁体字测试集;获取待识别的繁体字图像,利用识别模型处理繁体字图像,得到预测笔画序列;根据繁体字训练集、繁体字测试集和预测笔画序列,对识别模型进行训练;对预测笔画序列进行字符解码,得到繁体字图像对应的字符。解决了繁体字识别时易混淆和数据质量要求高的问题。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种繁体字的识别方法、系统及存储介质


技术介绍

1、关于对繁体字的识别,早期传统的方法主要依赖人工特征提取,识别效率低,因字符空间表达能力不足存在性能瓶颈。

2、随着深度学习算法的快速发展,涌现出一些基于深度卷积网络的监督学习方法,并优于传统方法。这些监督学习方法的繁体字识别普遍采用字符级做特征编码,然而,由于繁体字结构相对复杂存在冗余性,导致基于字符的方法很容易被相似的字符所混淆。另外,此方法通常依赖大量标注数据才能达到较高的识别准确率,而高质量标注数据的构造是成本高昂且耗时的。同时,基于字符的方法会面临跨数据集偏差问题,即当真实场景中出现了不在训练数据中的繁体字时,此类方法无法做出准确的预测。近几年也出现一些字根级的实现,虽然可以一定程度解决跨数据集偏差问题,但不能从根本上得到解决。


技术实现思路

1、有鉴于此,本公开的目的在于提出一种繁体字的识别方法、系统及存储介质,解决了繁体字识别时容易混淆和数据质量要求高的问题。

2、为了实现上述公开目的之一,本公开提供了一种繁体字的识别方法,所述方法包括:

3、获取汉字字典集;

4、根据所述汉字字典集,构造单个汉字的数据集,所述数据集包括单个汉字的图像样本和笔画序列标签;

5、判断所述笔画序列标签是否出现多次;

6、响应于所述笔画序列标签未出现多次,则筛选所述笔画序列标签对应的数据集为繁体字数据集;

7、选取一部分繁体字数据集,集合为繁体字训练集,将另一部分繁体数据集集合为繁体字测试集;

8、获取待识别的繁体字图像,利用识别模型对所述繁体字图像进行处理,得到预测笔画序列;

9、根据所述繁体字训练集、所述繁体字测试集和所述预测笔画序列,对所述识别模型进行训练;

10、对所述预测笔画序列进行字符解码,得到繁体字图像对应的字符。

11、作为本公开一实施方式的进一步改进,所述判断所述笔画序列标签是否出现多次之后,还包括:

12、响应于所述笔画序列标签出现多次,则筛选所述笔画序列标签对应的数据集为混淆字数据集;

13、所述对所述预测笔画序列进行字符解码,得到繁体字图像的字符,包括:

14、判断所述预测笔画序列在所述繁体字数据集中或所述混淆字数据集中;

15、响应于所述预测笔画序列在所述混淆字数据集中,则对所述预测笔画序列对应的所述图像样本进行孪生网络模型解码,得到与所述繁体字图像相似度最高的所述图像样本,所述图像样本对应的字符为所述繁体字图像的字符。

16、作为本公开一实施方式的进一步改进,所述则对所述预测笔画序列对应的所述图像样本进行孪生网络模型解码,得到与所述繁体字图像相似度最高的图像样本,包括:

17、获取所述繁体字图像的繁体字特征图和所述图像样本的样本特征图;

18、分别计算繁体字特征图f和多个样本特征图f′i的相似度得分,公式为:

19、

20、其中,f′={f′1,f′2,…,f′n}为样本特征图;d为相似度;

21、

22、当d(f,f′i)越接近1时,f和f′i越相似;

23、当d(f,f′i)越接近0时,f和f′i越不相似。

24、作为本公开一实施方式的进一步改进,所述获取繁体字图像,将所述繁体字图像进行识别模型处理,得到预测笔画序列之后,包括:

25、选取一部分所述混淆字数据集,集合为混淆字训练集,将另一部分所述混淆字数据集,集合为混淆字测试集;

26、根据所述混淆字训练集和所述混淆字测试集和所述预测笔画序列,对所述孪生网络模型进行训练。

27、作为本公开一实施方式的进一步改进,所述对所述预测笔画序列进行字符解码,得到繁体字图像的字符,还包括:

28、判断所述预测笔画序列是否包含于所述数据集中,响应于所述预测笔画序列不包含与所述数据集中;则计算所述预测笔画序列与多个所述数据集中的笔画序列标签的编辑距离;

29、对多个所述编辑距离进行排序,将所述预测笔画序列更正为所述编辑距离最小的所述笔画序列标签。

30、作为本公开一实施方式的进一步改进,所述获取繁体字图像,将所述繁体字图像进行识别模型处理,得到预测笔画序列,包括:

31、对所述繁体字图像进行图像特征编码,得到繁体字特征图;

32、对所述繁体字特征图进行笔画序列解码,得到预测笔画序列。

33、作为本公开一实施方式的进一步改进,所述对所述繁体字图像进行图像特征编码,包括:

34、将所述繁体字图像输入至resnet50中,进行图像特征编码;

35、所述对所述繁体字特征图进行笔画序列解码,包括:

36、将所述繁体字特征图输入至transformer网络中,进行笔画序列解码。

37、作为本公开一实施方式的进一步改进,所述根据汉字字典集,构造单个汉字的数据集,所述数据集包括单个汉字的图像样本和笔画序列标签,包括:

38、获取汉字字典集中的繁体字、简体字和异形字,去除重复的汉字,得到汉字集;

39、渲染所述汉字集,使每个汉字具有多份多种特征的图像,生成图像样本;

40、将笔画划分为横类、竖类、撇类、捺类和折类,每个类别的中包含有多个笔画实例,且每个类别对应一个数字;

41、获取笔画顺序数据库并根据汉字的笔画对应的数字,将汉字转化为数列表示的形式,即生成笔画序列标签。

42、基于相同的专利技术构思,本公开还提供了一种繁体字的识别系统,包括:获取模块,用于获取汉字字典集;

43、构造模块,用于根据汉字字典集,构造单个汉字的数据集,所述数据集包括单个汉字的图像样本和笔画序列标签;

44、第一判断模块,用于判断所述笔画序列标签是否出现多次;

45、第一筛选模块,用于响应于所述笔画序列标签未出现多次,则筛选所述笔画序列标签对应的数据集为繁体字数据集;

46、选取模块,用于选取一部分繁体字数据集,集合为繁体字训练集,将另一部分繁体数据集集合为繁体字测试集;

47、处理模块,用于获取待识别的繁体字图像,将所述繁体字图像进行识别模型处理,得到预测笔画序列;

48、训练模块,用于根据所述繁体字训练集、所述繁体字测试集和所述预测笔画序列,对所述识别模型进行训练;

49、解码模块,用于对所述预测笔画序列进行字符解码,得到繁体字图像对应的字符。

50、基于同样的专利技术构思,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行上述任一所述的繁体字的识别方法。

51、相对于现有技术,本专利技术的技术效果在于:本公开通过构造包含汉字的图像样本和笔画序列标签,将汉字本文档来自技高网...

【技术保护点】

1.一种繁体字的识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的繁体字的识别方法,其特征在于,所述判断所述笔画序列标签是否出现多次之后,还包括:

3.根据权利要求2所述的繁体字的识别方法,其特征在于,所述则对所述预测笔画序列对应的所述图像样本进行孪生网络模型解码,得到与所述繁体字图像相似度最高的图像样本,包括:

4.根据权利要求3所述的繁体字的识别方法,其特征在于,所述获取繁体字图像,将所述繁体字图像进行识别模型处理,得到预测笔画序列之后,包括:

5.根据权利要求1所述的繁体字的识别方法,其特征在于,所述对所述预测笔画序列进行字符解码,得到繁体字图像的字符,还包括:

6.根据权利要求1所述的繁体字的识别方法,其特征在于,所述获取繁体字图像,将所述繁体字图像进行识别模型处理,得到预测笔画序列,包括:

7.根据权利要求6所述的繁体字的识别方法,其特征在于,所述对所述繁体字图像进行图像特征编码,包括:

8.根据权利要求1所述的繁体字的识别方法,其特征在于,所述根据汉字字典集,构造单个汉字的数据集,所述数据集包括单个汉字的图像样本和笔画序列标签,包括:

9.一种繁体字的识别系统,其特征在于,所述系统包括:

10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至8任一所述的繁体字的识别方法。

...

【技术特征摘要】

1.一种繁体字的识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的繁体字的识别方法,其特征在于,所述判断所述笔画序列标签是否出现多次之后,还包括:

3.根据权利要求2所述的繁体字的识别方法,其特征在于,所述则对所述预测笔画序列对应的所述图像样本进行孪生网络模型解码,得到与所述繁体字图像相似度最高的图像样本,包括:

4.根据权利要求3所述的繁体字的识别方法,其特征在于,所述获取繁体字图像,将所述繁体字图像进行识别模型处理,得到预测笔画序列之后,包括:

5.根据权利要求1所述的繁体字的识别方法,其特征在于,所述对所述预测笔画序列进行字符解码,得到繁体字图像的字符,还包括:

6...

【专利技术属性】
技术研发人员:黄宇曲直
申请(专利权)人:中科世通亨奇北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1