一种基于深度学习的文本识别方法及装置制造方法及图纸

技术编号：38433306 阅读：16 留言：0更新日期：2023-08-11 14:19

一种基于深度学习的文本识别方法及装置，涉及人工智能图像技术领域。在该方法中，获取待识别的文本图像；将文本图像输入预设分类模型，得到文本图像对应的图像类别，图像类别包括行类别和尺寸类别；将文本图像和图像类别输入至预设特征尺寸选择器中，得到文本图像对应的特征图像；将特征图像进行图像分割，得到特征图像的第一文本区域，以便于对特征图像的第一文本区域进行识别，得到文本图像对应的文本。实施本申请提供的技术方案，对传统的文本识别速度进行改进，减少了文字识别过程中被消耗的时间，进而提高了文本的检测速度。进而提高了文本的检测速度。进而提高了文本的检测速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的文本识别方法及装置

[0001]本申请涉及人工智能图像
，具体涉及一种基于深度学习的文本识别方法及装置。

技术介绍

[0002]OCR文字识别作为计算机视觉领域的一个极为重要的分支，其在视觉领域中所起的作用无可替代。随着人工智能、模式识别、计算机视觉领域的不断发展，OCR文字识别技术被应用于文档识别、车牌识别、票据识别、证件识别等诸多场景中，因此如何得到更好的文字识别方法成为文字识别领域乃至整个计算机视觉领域亟待解决的问题。
[0003]目前已有的OCR文字识别方法可分为传统的OCR文字识别方法和基于深度学习的OCR文字识别方法两大类。由于传统OCR文字识别方法主要基于数字图像处理和传统机器学习等方法实现，在某些情况下文字识别的效果与实际需求有一定的差距，而基于深度学习的OCR文字识别方法利用卷积神经网络自动提取图像特征且提取的特征鲁棒性更强、识别效果更好，因此近几年的OCR文字识别方法一般都基于深度学习实现。但多数已有基于深度学习的OCR文字识别方法都是通过组合文字检测过程、文字识别过程而完成文字识别任务，在文字识别的过程有较多时间被消耗，导致文本检测速度无法满足某些实际应用的需求。
[0004]因此，目前亟需可解决上述技术问题的一种基于深度学习的文本识别方法及装置。

技术实现思路

[0005]本申请提供了一种基于深度学习的文本识别方法及装置，该方法对传统的文本识别速度进行改进，减少了在文字识别过程中被消耗的时间，进而提高了文本的检测速度。
[0006...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的文本识别方法，其特征在于，应用于服务器中，所述方法包括：获取待识别的文本图像，所述文本图像为带有文字的图像；将所述文本图像输入预设分类模型，得到所述文本图像对应的图像类别，所述图像类别包括行类别和尺寸类别；将所述文本图像和所述图像类别输入至预设特征尺寸选择器中，得到所述文本图像对应的特征图像；将所述特征图像进行图像分割，得到所述特征图像的第一文本区域，以便于对所述特征图像的第一文本区域进行识别，得到所述文本图像对应的文本。2.根据权利要求1所述的方法，其特征在于，在获取待识别的文本图像之前，所述方法还包括：获取多个待识别图像；使用预设文字标注工具对多个所述待识别图像进行标注，标注出带有文字的图像，多个所述待识别图像包括所述带有文字的图像和未带有文字的图像；去除多个所述待识别图像中所述未带有文字的图像，得到所述带有文字的图像，所述带有文字的图像为所述文本图像。3.根据权利要求1所述的方法，其特征在于，所述行类别包括单行、两行以及多行，所述尺寸类别包括第一尺寸、第二尺寸以及第三尺寸，所述尺寸类别根据所述文本图像中第二文本区域面积与文本图像面积的比值进行划分，所述第一尺寸大于所述第二尺寸，所述第二尺寸大于所述第三尺寸。4.根据权利要求1所述的方法，其特征在于，在将所述文本图像和所述图像类别输入至预设特征尺寸选择器中，得到所述文本图像对应的特征图像之前，构建所述预设特征尺寸选择器，所述预设特征尺寸选择器包括所述文本图像与所述特征图像的映射关系；构建所述预设特征尺寸选择器，具体包括：构建预设图像类别与预设图像特征提取方式之间的映射关系，所述预设图像类别包括第一类别、第二类别以及第三类别，所述预设图像特征提取方式包括第一提取方式和第二提取方式；所述预设图像类别为待提取文本图像对应的图像类别；若所述预设图像类别为所述第一类别，则采用所述第一提取方式对待提取文本图像进行提取；若所述预设图像类别为所述第二类别或所述第三类别，则采用所述第二提取方式对待提取文本图像进行提取。5.根据权利要求4所述的方法，其特征在于，所述第一类别的所述行类别为所述单行或所述两...

【专利技术属性】
技术研发人员：张小亮，李东欣，李茂林，戚纪纲，
申请(专利权)人：北京万里红科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人