一种基于深度学习的各类证件OCR图像信息识别方法、系统技术方案

技术编号:35097985 阅读:19 留言:0更新日期:2022-10-01 17:02
本申请涉及一种基于深度学习的各类证件OCR图像信息识别方法、系统,涉及计算机视觉领域,解决了OCR识别结果准率降低,可读性较差,通过人工做二次加工处理也将耗费大量时间成本的问题,其包括:将原图像信息的长宽做自适应缩放和灰度处理;通过方向识别网络模型将朝向为90度、180度、270度的图像矫正为0度;通过文本框检测网络模型获取证件图像中的矩形文本检测框;通过文本识别网络模型对每个检测框进行文本识别,根据模型输出的置信度对文本行图像做字符标注;对识别的文本做解析以将文本结构化。本申请具有如下效果:能够实现对待检测证件图像中的目标文本的自动化检测与识别,减少甚至避免了在文本信息提取过程中对人工的依赖和需求。的依赖和需求。的依赖和需求。

【技术实现步骤摘要】
一种基于深度学习的各类证件OCR图像信息识别方法、系统


[0001]本申请涉及计算机视觉领域,尤其是涉及一种基于深度学习的各类证件OCR图像信息识别方法、系统。

技术介绍

[0002]随着信息科技的进步和社会的发展,各行各业都在逐步走向数字化。尤其是计算机视觉领域的OCR(Optical Character Recognition,光学符号识别)技术,OCR是指利用扫描等光学输入的方式把各种文件、证件、票据等印刷品上的文本解析读取出来,并转换成一种计算机能理解的格式。可应用于证件卡证、文件资料、文案录入等领域。
[0003]由于对当前日益增长的提升录入效率、版面理解正确率及识别速度等需求,OCR技术已经被充分的推广并大规模应用。如单行图像的场景下,OCR工具的识别准确率较高,甚至超过9成。
[0004]针对上述中的相关技术,专利技术人认为存在有如下缺陷:在图像朝向歪斜、密集文本图像等复杂场景下,由于多行的文本距离过近,或是图像中冗余文字过多难以结构化等现象,使得OCR识别结果准率降低,可读性较差,通过人工做二次加工处理也将耗费大量时间成本。

技术实现思路

[0005]为了能够实现对待检测证件图像中的目标文本的自动化检测与识别,减少甚至避免了在文本信息提取过程中对人工的依赖和需求,本申请提供一种基于深度学习的各类证件OCR图像信息识别方法、系统。
[0006]第一方面,本申请提供一种基于深度学习的各类证件OCR图像信息识别方法,采用如下的技术方案:
[0007]一种基于深度学习的各类证件OCR图像信息识别方法,包括:
[0008]获取图像信息并作OCR图像信息识别;
[0009]若识别失败,则将原图像信息的长宽做自适应缩放和灰度处理;
[0010]通过方向识别网络模型将朝向为90度、180度、270度的图像矫正为0度;
[0011]通过文本框检测网络模型获取证件图像中的矩形文本检测框,每个检测框覆盖图像中符合预设规则的文本行图像,每个检测框覆盖图像中符合预设规则的文本行图像;
[0012]通过文本识别网络模型对每个检测框进行文本识别,根据模型输出的置信度对文本行图像做字符标注;
[0013]对识别的文本做解析以将文本结构化以获取正确识别后的内容信息。
[0014]若识别成功,则获取正确识别后的内容信息。
[0015]可选的,方向识别网络模型为MobileNetV3,输出的维度为4,分别代表预测图像的朝向为0度、90度、180度和270度的概率。
[0016]可选的,文本框检测网络模型包括主干网络ResNet50、Neck网络DBFPN、Head网络
DBNe;
[0017]利用所述主干网络对全局特征进行特征提取,得到全局特征;
[0018]利用所述Neck网络对所述全局特征进行特征提取,得到高层特征;
[0019]利用所述Head网络对所述高层特征进行特征处理,得到输出的一个或多个文本框预测结果。
[0020]可选的,所述文本识别网络模型包括主干网络ResNet34、Neck网络SequenceEncoder、Head网络CTC网络;
[0021]利用所述主干网络对全局特征进行特征提取,得到全局特征;
[0022]利用所述Neck网络对所述全局特征进行特征提取,得到高层特征;
[0023]利用所述Head网络对所述高层特征进行特征处理,得到输出的单字符分割预测结果。
[0024]可选的,还包括对识别的文本做解析以将文本结构化以获取正确识别后的内容信息:
[0025]分析获取用户历史是否设置过关于内容信息的展示模式;
[0026]若用户历史有设置过内容信息的展示模式,则基于用户在相应时段所设置的展示模式以及用户关于不同内容的展示模式调节情况,预测分析用户本次关于内容信息展示模式的倾向;
[0027]展示用户本次关于内容信息展示模式的倾向,若用户未在预设时间内调整,则以所展示的模式展示内容信息;
[0028]若用户历史未设置过内容信息的展示模式,则基于相应内容信息的整体模式选择概率分布情况,按照用户对重要信息的浏览习惯展示不同模式以及概率;
[0029]获取用户所选择的模式,并以相应模式展示内容信息。
[0030]可选的,预测分析用户本次关于内容信息展示模式的倾向包括:
[0031]获取用户关于不同时段所设置的展示模式概率的对应关系,以及用户关于不同内容所调节展示模式的概率;
[0032]基于当前时段以及用户关于不同时段所设置的展示模式的对应关系,预测分析用户在当下时段所设置的展示模式概率;
[0033]基于所识别的内容以及用户关于不同内容所调节展示模式的概率,预测分析用户关于本次所识别内容所设置的展示模式的概率;
[0034]基于所预测分析的用户在当下时段所设置的展示模式概率以及所预测分析的用户关于本次所识别内容所设置的展示模式的概率,分析预测出每个展示模式的概率,并以概率最高的展示模式作为用户本次关于内容信息展示模式的倾向。
[0035]可选的,分析预测出每个展示模式的概率包括:
[0036]获取所预测分析的用户在当下时段所设置的一个展示模式的概率,以及用户关于本次所识别内容所设置相应展示模式的概率;
[0037]将所预测分析的用户在当下时段所设置的一个展示模式的概率,与用户关于本次所识别内容所设置相应展示模式的概率相加之和的一半作为相应展示模式的概率。
[0038]可选的,基于相应内容信息的整体模式选择概率分布情况,用户对重要信息的浏览习惯展示不同模式以及概率包括:
[0039]基于内容以及内容所对应的模式选择的概率分布情况的对应关系,分析内容重要程度的排序情况;
[0040]获取用户对重要信息的浏览习惯信息,并基于用户对重要信息的的浏览习惯按照重要程度对内容进行排序。
[0041]可选的,还包括位于分析获取用户历史是否设置过关于内容信息的展示模式之前的步骤:
[0042]获取用户是否登录OCR图像信息识别系统;
[0043]若用户登录OCR图像信息识别系统,则基于用户登录账号确定用户信息;
[0044]反之,则基于不同用户历史浏览内容信息的时段分布概率情况,以及不同用户在不同时段疏忽登录OCR图像信息识别系统的概率,分析获取在当下时段疏忽登录OCR图像信息识别系统的概率以及历史浏览内容信息概率之和最高所对应的用户信息作为所确定的用户信息。
[0045]第二方面,本申请提供一种基于深度学习的各类证件OCR图像信息识别系统,采用如下的技术方案:
[0046]一种基于深度学习的各类证件OCR图像信息识别系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,该程序能够被处理器加载执行时实现如第一方面所述的一种基于深度学习的各类证件OCR图像信息识别方法。
[0047]综本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的各类证件OCR图像信息识别方法,其特征在于,包括:获取图像信息并作OCR图像信息识别;若识别失败,则将原图像信息的长宽做自适应缩放和灰度处理;通过方向识别网络模型将朝向为90度、180度、270度的图像矫正为0度;通过文本框检测网络模型获取证件图像中的矩形文本检测框,每个检测框覆盖图像中符合预设规则的文本行图像,每个检测框覆盖图像中符合预设规则的文本行图像;通过文本识别网络模型对每个检测框进行文本识别,根据模型输出的置信度对文本行图像做字符标注;对识别的文本做解析以将文本结构化以获取正确识别后的内容信息。若识别成功,则获取正确识别后的内容信息。2.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法,其特征在于:方向识别网络模型为MobileNetV3,输出的维度为4,分别代表预测图像的朝向为0度、90度、180度和270度的概率。3.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法,其特征在于,文本框检测网络模型包括主干网络ResNet50、Neck网络DBFPN、Head网络DBNe;利用所述主干网络对全局特征进行特征提取,得到全局特征;利用所述Neck网络对所述全局特征进行特征提取,得到高层特征;利用所述Head网络对所述高层特征进行特征处理,得到输出的一个或多个文本框预测结果。4.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法,其特征在于,所述文本识别网络模型包括主干网络ResNet34、Neck网络SequenceEncoder、Head网络CTC网络;利用所述主干网络对全局特征进行特征提取,得到全局特征;利用所述Neck网络对所述全局特征进行特征提取,得到高层特征;利用所述Head网络对所述高层特征进行特征处理,得到输出的单字符分割预测结果。5.根据权利要求1所述的一种基于深度学习的各类证件OCR图像信息识别方法,其特征在于,还包括对识别的文本做解析以将文本结构化以获取正确识别后的内容信息:分析获取用户历史是否设置过关于内容信息的展示模式;若用户历史有设置过内容信息的展示模式,则基于用户在相应时段所设置的展示模式以及用户关于不同内容的展示模式调节情况,预测分析用户本次关于内容信息展示模式的倾向;展示用户本次关于内容信息展示模式的倾向,若用户未在预设时间内调整,则以所展示的模式展示内容信息;若用户历史未设置过内容信息的展示模式,则基于相应内容信息的整体模式选择概率分布情况,按照用户对重要信息的浏览习惯展示不同模式以及概率;获取用户所选择的模式,并以...

【专利技术属性】
技术研发人员:郑周勇郑铭浩陈惠源何云杰王文
申请(专利权)人:福建极推科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1