一种基于深度学习的各类证件OCR图像信息识别方法、系统技术方案

技术编号：35097985 阅读：19 留言：0更新日期：2022-10-01 17:02

本申请涉及一种基于深度学习的各类证件OCR图像信息识别方法、系统，涉及计算机视觉领域，解决了OCR识别结果准率降低，可读性较差，通过人工做二次加工处理也将耗费大量时间成本的问题，其包括：将原图像信息的长宽做自适应缩放和灰度处理；通过方向识别网络模型将朝向为90度、180度、270度的图像矫正为0度；通过文本框检测网络模型获取证件图像中的矩形文本检测框；通过文本识别网络模型对每个检测框进行文本识别，根据模型输出的置信度对文本行图像做字符标注；对识别的文本做解析以将文本结构化。本申请具有如下效果：能够实现对待检测证件图像中的目标文本的自动化检测与识别，减少甚至避免了在文本信息提取过程中对人工的依赖和需求。的依赖和需求。的依赖和需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的各类证件OCR图像信息识别方法、系统

[0001]本申请涉及计算机视觉领域，尤其是涉及一种基于深度学习的各类证件OCR图像信息识别方法、系统。

技术介绍

[0002]随着信息科技的进步和社会的发展，各行各业都在逐步走向数字化。尤其是计算机视觉领域的OCR(Optical Character Recognition，光学符号识别)技术，OCR是指利用扫描等光学输入的方式把各种文件、证件、票据等印刷品上的文本解析读取出来，并转换成一种计算机能理解的格式。可应用于证件卡证、文件资料、文案录入等领域。
[0003]由于对当前日益增长的提升录入效率、版面理解正确率及识别速度等需求，OCR技术已经被充分的推广并大规模应用。如单行图像的场景下，OCR工具的识别准确率较高，甚至超过9成。
[0004]针对上述中的相关技术，专利技术人认为存在有如下缺陷：在图像朝向歪斜、密集文本图像等复杂场景下，由于多行的文本距离过近，或是图像中冗余文字过多难以结构化等现象，使得OCR识别结果准率降低，可读性较差，通过人工做二次加工处理也将耗费大量时间成本。

技术实现思路

[0005]为了能够实现对待检测证件图像中的目标文本的自动化检测与识别，减少甚至避免了在文本信息提取过程中对人工的依赖和需求，本申请提供一种基于深度学习的各类证件OCR图像信息识别方法、系统。
[0006]第一方面，本申请提供一种基于深度学习的各类证件OCR图像信息识别方法，采用如下的技术方案：
[0007]一种基于深...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于，包括：获取图像信息并作OCR图像信息识别；若识别失败，则将原图像信息的长宽做自适应缩放和灰度处理；通过方向识别网络模型将朝向为90度、180度、270度的图像矫正为0度；通过文本框检测网络模型获取证件图像中的矩形文本检测框，每个检测框覆盖图像中符合预设规则的文本行图像，每个检测框覆盖图像中符合预设规则的文本行图像；通过文本识别网络模型对每个检测框进行文本识别，根据模型输出的置信度对文本行图像做字符标注；对识别的文本做解析以将文本结构化以获取正确识别后的内容信息。若识别成功，则获取正确识别后的内容信息。2.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于：方向识别网络模型为MobileNetV3，输出的维度为4，分别代表预测图像的朝向为0度、90度、180度和270度的概率。3.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于，文本框检测网络模型包括主干网络ResNet50、Neck网络DBFPN、Head网络DBNe；利用所述主干网络对全局特征进行特征提取，得到全局特征；利用所述Neck网络对所述全局特征进行特征提取，得到高层特征；利用所述Head网络对所述高层特征进行特征处理，得到输出的一个或多个文本框预测结果。4.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于，所述文本识别网络模型包括主干网络ResNet34、Neck网络SequenceEncoder、Head网络CTC网络；利用所述主干网络对全局特征进行特征提取，得到全局特征；利用所述Neck网络对所述全局特征进行特征提取，得到高层特征；利用所述Head网络对所述高层特征进行特征处理，得到输出的单字符分割预测结果。5.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法，其特征在于，还包括对识别的文本做解析以将文本结构化以获取正确识别后的内容信息：分析获取用户历史是否设置过关于内容信息的展示模式；若用户历史有设置过内容信息的展示模式，则基于用户在相应时段所设置的展示模式以及用户关于不同内容的展示模式调节情况，预测分析用户本次关于内容信息展示模式的倾向；展示用户本次关于内容信息展示模式的倾向，若用户未在预设时间内调整，则以所展示的模式展示内容信息；若用户历史未设置过内容信息的展示模式，则基于相应内容信息的整体模式选择概率分布情况，按照用户对重要信息的浏览习惯展示不同模式以及概率；获取用户所选择的模式，并以...

【专利技术属性】
技术研发人员：郑周勇，郑铭浩，陈惠源，何云杰，王文，
申请(专利权)人：福建极推科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人