多语种印章文字识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:42531433 阅读:23 留言:0更新日期:2024-08-27 19:39
本发明专利技术提供一种多语种印章文字识别方法、装置、电子设备和存储介质,属于光学字符识别技术领域,该方法包括:使用SAM分割模型对目标印章印文图像进行分割,获得每一个印章文字的mask和特征向量;基于所述每一个印章文字的mask和特征向量,对所述每一个印章文字进行聚类,获得至少一个文字行;分别将所述至少一个文字行中的文字按相对位置进行排序;基于所述每一个印章文字的mask,使用Transformer编码器识别排序后的所述至少一个文字行,输出所述每一个印章文字的字符外框、字符类别和所述文字行的语种。可以提高印章图像识别的效果和准确率。

【技术实现步骤摘要】

本专利技术涉及光学字符识别,尤其涉及一种多语种印章文字识别方法、装置、电子设备和存储介质


技术介绍

1、相关技术中,印章文字识别面临如下挑战:1、印章在大小、形状、颜色以及印制材料上的差异极大,对识别系统的泛化能力提出了挑战;2、由于印章按压时可能产生旋转或者形变,文字可能会失真,要求识别算法能够处理非标准化的图像;3、印章常常盖在具有复杂背景的文件上,例如文本、图形或其他图章的干扰,这些都会影响识别的准确性;4、印章按压时可能会因为墨水过多或太少而导致墨迹溢出或不均匀,造成识别难度增加;5、拍摄或扫描过程中不均匀的光照和反射会导致印章部分过亮或过暗,影响识别效果;6、常用的汉字识别系统至少需要支持七千多类汉字,多语言印章识别进一步扩大需要识别字符集的要求。

2、上述问题,相关技术的印章文字识别方法无法很好的解决,因此识别效果不佳。


技术实现思路

1、本专利技术提供一种多语种印章文字识别方法、装置、电子设备和存储介质,可以克服印章文字识别面临的问题,提高印章图像识别的效果和准确率。

本文档来自技高网...

【技术保护点】

1.一种多语种印章文字识别方法,其特征在于,包括:

2.根据权利要求1所述的多语种印章文字识别方法,其特征在于,所述使用SAM分割模型对目标印章印文图像进行分割,获得每一个印章文字的mask和特征向量,包括:

3.根据权利要求2所述的多语种印章文字识别方法,其特征在于,所述SAM分割模型的训练过程包括:

4.根据权利要求1所述的多语种印章文字识别方法,其特征在于,所述基于所述每一个印章文字的mask和特征向量,对所述每一个印章文字进行聚类,获得至少一个文字行,包括:

5.根据权利要求1所述的多语种印章文字识别方法,其特征在于,所述分别将所述...

【技术特征摘要】

1.一种多语种印章文字识别方法,其特征在于,包括:

2.根据权利要求1所述的多语种印章文字识别方法,其特征在于,所述使用sam分割模型对目标印章印文图像进行分割,获得每一个印章文字的mask和特征向量,包括:

3.根据权利要求2所述的多语种印章文字识别方法,其特征在于,所述sam分割模型的训练过程包括:

4.根据权利要求1所述的多语种印章文字识别方法,其特征在于,所述基于所述每一个印章文字的mask和特征向量,对所述每一个印章文字进行聚类,获得至少一个文字行,包括:

5.根据权利要求1所述的多语种印章文字识别方法,其特征在于,所述分别将所述至少一个文字行中的文字按相对位置进行排序,包括:

6.根据权利要求1所述的多语种印章文字识别方法,其特征在于,所述基于所述每...

【专利技术属性】
技术研发人员:周明可万英殷飞隋海涛霍炬刘成林王锋郭微
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1