一种基于深度学习的文本识别方法及装置制造方法及图纸

技术编号:38433306 阅读:16 留言:0更新日期:2023-08-11 14:19
一种基于深度学习的文本识别方法及装置,涉及人工智能图像技术领域。在该方法中,获取待识别的文本图像;将文本图像输入预设分类模型,得到文本图像对应的图像类别,图像类别包括行类别和尺寸类别;将文本图像和图像类别输入至预设特征尺寸选择器中,得到文本图像对应的特征图像;将特征图像进行图像分割,得到特征图像的第一文本区域,以便于对特征图像的第一文本区域进行识别,得到文本图像对应的文本。实施本申请提供的技术方案,对传统的文本识别速度进行改进,减少了文字识别过程中被消耗的时间,进而提高了文本的检测速度。进而提高了文本的检测速度。进而提高了文本的检测速度。

【技术实现步骤摘要】
一种基于深度学习的文本识别方法及装置


[0001]本申请涉及人工智能图像
,具体涉及一种基于深度学习的文本识别方法及装置。

技术介绍

[0002]OCR文字识别作为计算机视觉领域的一个极为重要的分支,其在视觉领域中所起的作用无可替代。随着人工智能、模式识别、计算机视觉领域的不断发展,OCR文字识别技术被应用于文档识别、车牌识别、票据识别、证件识别等诸多场景中,因此如何得到更好的文字识别方法成为文字识别领域乃至整个计算机视觉领域亟待解决的问题。
[0003]目前已有的OCR文字识别方法可分为传统的OCR文字识别方法和基于深度学习的OCR文字识别方法两大类。由于传统OCR文字识别方法主要基于数字图像处理和传统机器学习等方法实现,在某些情况下文字识别的效果与实际需求有一定的差距,而基于深度学习的OCR文字识别方法利用卷积神经网络自动提取图像特征且提取的特征鲁棒性更强、识别效果更好,因此近几年的OCR文字识别方法一般都基于深度学习实现。但多数已有基于深度学习的OCR文字识别方法都是通过组合文字检测过程、文字识别过程而完成文字识别任务,在文字识别的过程有较多时间被消耗,导致文本检测速度无法满足某些实际应用的需求。
[0004]因此,目前亟需可解决上述技术问题的一种基于深度学习的文本识别方法及装置。

技术实现思路

[0005]本申请提供了一种基于深度学习的文本识别方法及装置,该方法对传统的文本识别速度进行改进,减少了在文字识别过程中被消耗的时间,进而提高了文本的检测速度。
[0006]第一方面,本申请提供了一种基于深度学习的文本识别方法,应用于服务器中,获取待识别的文本图像,文本图像为带有文字的图像;将文本图像输入预设分类模型,得到文本图像对应的图像类别,图像类别包括行类别和尺寸类别;将文本图像和图像类别输入至预设特征尺寸选择器中,得到文本图像对应的特征图像;将特征图像进行图像分割,得到特征图像的第一文本区域,以便于对特征图像的第一文本区域进行识别,得到文本图像对应的文本。
[0007]通过采用上述技术方案,在对文本图像进行识别时,根据文本图像中尺寸类别和行类别,在预设特征尺寸选择器中进行匹配,得到特征图像,并对特征图像进行图像分割得到特征图像的第一文本区域,以便于文本识别,得到文本,而从而对传统的文本识别速度进行改进,减少了文字识别过程中被消耗的时间,进而提高了文本的检测速度。
[0008]可选的,获取多个待识别图像;使用预设文字标注工具对多个待识别图像进行标注,标注出带有文字的图像,多个待识别图像包括带有文字的图像和未带有文字的图像;去除多个待识别图像中未带有文字的图像,得到带有文字的图像,带有文字的图像为文本图像。
[0009]通过采用上述技术方案,根据使用预设文字标注工具对带有文字的图像中的文字区域进行标注,能够有效地去除多个待识别图像中的不存在文字的图像,只筛选出带有文字的图像进行后续处理,可以更好地提取文本区域,进一步提高文本识别的准确度和效率。
[0010]可选的,行类别包括单行、两行以及多行,尺寸类别包括第一尺寸、第二尺寸以及第三尺寸,尺寸类别根据对文本图像中第二文本区域面积与整张文本图像面积的比值进行划分,第一尺寸大于第二尺寸,第二尺寸大于第三尺寸。
[0011]通过采用上述技术方案,将文本图像划分为不同的尺寸类别和行类别,从而更好地适应不同文本图像的特点,提高了文本识别的准确度和效率。
[0012]可选的,构建预设特征尺寸选择器,预设特征尺寸选择器包括文本图像与特征图像的映射关系;构建预设特征尺寸选择器,具体包括:构建预设图像类别与预设图像特征提取方式之间的映射关系,预设图像类别包括第一类别、第二类别以及第三类别,预设图像特征提取方式包括第一提取方式和第二提取方式;预设图像类别为待提取文本图像对应的图像类别;若预设图像类别为第一类别,则采用第一提取方式对待提取文本图像进行提取;若预设图像类别为第二类别或第三类别,则采用第二提取方式对待提取文本图像进行提取。
[0013]通过采用上述技术方案,通过构建预设图像类别与预设图像特征提取方式之间的映射关系,能够根据文本图像对应的图像类别选择不同的特征提取方式,从而更好地适应不同文本图像对应的图像类别,提高文本识别的准确度和效率。通过预设图像类别与预设图像特征提取方式之间的映射关系,可以在文本识别过程中自动选择最适合的特征提取方式。
[0014]可选的,第一类别的行类别为单行或两行,且尺寸类别为第一尺寸或第二尺寸;第二类别的行类别为多行,且尺寸类别为第一尺寸或第二尺寸;第三类别的尺寸类别为所述第三尺寸。
[0015]通过采用上述技术方案,不同的图像类别由不同的行类别和尺寸类别组成,根据不同的文本图像对应的图像类别,对文本图像进行处理,进而提高了文本识别的准确度。
[0016]可选的,第一提取方式为采用stage4或stage3对待提取文本图像提取;第二提取方式为采用stage2、stage3、stage4以及预设特征金字塔网络模型对待提取文本图像进行提取。
[0017]通过采用上述技术方案,不同的提取方式对应提取不同的待提取文本图像,不同的提取方式可以适应不同场景的文本识别需求,保证特征提取准确度。
[0018]可选的,将特征图像转换为二值图,二值图包括文本区域和非文本区域;去除二值图中非文本区域,得到特征图像的第一文本区域。
[0019]通过采用上述技术方案,采用了二值化对特征图像进行分割,去除非文本区域后得到文本区域,此时文本区域是特征图像的第一文本区域。这样可以避免在识别过程中需扫描整个图像,提升识别的效率。
[0020]在本申请的第二方面提供了一种基于深度学习的文本识别装置,装置为服务器,服务器包括获取单元、处理单元以及识别单元:获取单元,获取待识别的文本图像,文本图像为带有文字的图像;处理单元,将文本图像输入预设分类模型,得到文本图像对应的图像类别,图像类别包括行类别和尺寸类别;将文本图像和图像类别输入至预设特征尺寸选择器中,得到文本图像对应的特征图像;识别单元,将特征图像进行图像分割,得到特征图像
的第一文本区域,以便于对特征图像的第一文本区域进行识别,得到文本图像对应的文本。
[0021]可选的,获取单元用于获取多个待识别图像;处理单元用于使用预设文字标注工具对多个待识别图像进行标注,标注出带有文字的图像,多个待识别图像包括带有文字的图像和未带有文字的图像;去除多个待识别图像中未带有文字的图像,得到带有文字的图像,带有文字的图像为文本图像。
[0022]可选的,行类别包括单行、两行以及多行,尺寸类别包括第一尺寸、第二尺寸以及第三尺寸,尺寸类别根据对文本图像中第二文本区域面积与文本图像面积的比值进行划分,第一尺寸大于第二尺寸,第二尺寸大于第三尺寸。
[0023]可选的,预设特征尺寸选择器包括文本图像与特征图像的映射关系;构建预设特征尺寸选择器,处理单元用于构建预设图像类别与预设图像特征提取方式之间的映射本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的文本识别方法,其特征在于,应用于服务器中,所述方法包括:获取待识别的文本图像,所述文本图像为带有文字的图像;将所述文本图像输入预设分类模型,得到所述文本图像对应的图像类别,所述图像类别包括行类别和尺寸类别;将所述文本图像和所述图像类别输入至预设特征尺寸选择器中,得到所述文本图像对应的特征图像;将所述特征图像进行图像分割,得到所述特征图像的第一文本区域,以便于对所述特征图像的第一文本区域进行识别,得到所述文本图像对应的文本。2.根据权利要求1所述的方法,其特征在于,在获取待识别的文本图像之前,所述方法还包括:获取多个待识别图像;使用预设文字标注工具对多个所述待识别图像进行标注,标注出带有文字的图像,多个所述待识别图像包括所述带有文字的图像和未带有文字的图像;去除多个所述待识别图像中所述未带有文字的图像,得到所述带有文字的图像,所述带有文字的图像为所述文本图像。3.根据权利要求1所述的方法,其特征在于,所述行类别包括单行、两行以及多行,所述尺寸类别包括第一尺寸、第二尺寸以及第三尺寸,所述尺寸类别根据所述文本图像中第二文本区域面积与文本图像面积的比值进行划分,所述第一尺寸大于所述第二尺寸,所述第二尺寸大于所述第三尺寸。4.根据权利要求1所述的方法,其特征在于,在将所述文本图像和所述图像类别输入至预设特征尺寸选择器中,得到所述文本图像对应的特征图像之前,构建所述预设特征尺寸选择器,所述预设特征尺寸选择器包括所述文本图像与所述特征图像的映射关系;构建所述预设特征尺寸选择器,具体包括:构建预设图像类别与预设图像特征提取方式之间的映射关系,所述预设图像类别包括第一类别、第二类别以及第三类别,所述预设图像特征提取方式包括第一提取方式和第二提取方式;所述预设图像类别为待提取文本图像对应的图像类别;若所述预设图像类别为所述第一类别,则采用所述第一提取方式对待提取文本图像进行提取;若所述预设图像类别为所述第二类别或所述第三类别,则采用所述第二提取方式对待提取文本图像进行提取。5.根据权利要求4所述的方法,其特征在于,所述第一类别的所述行类别为所述单行或所述两...

【专利技术属性】
技术研发人员:张小亮李东欣李茂林戚纪纲
申请(专利权)人:北京万里红科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1