图文识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33848164 阅读:15 留言:0更新日期:2022-06-18 10:33
本发明专利技术实施例公开了图文识别方法、装置、计算机设备及存储介质。所述方法包括:获取银行领域的待识别图片;对所述待识别图片进行预处理,以得到潜在文本区域;对所述潜在文本区域输入至文字识别模型内进行图文识别,以得到第一识别结果;对所述第一识别结果进行矫正处理,以得到第二识别结果;输出所述第二识别结果。通过实施本发明专利技术实施例的方法可实现精准识别银行领域的图片内的文字,避免由于光亮度、色差、褶皱、表面掩映、形体相近等多种干扰因素而导致的识别错误,提高识别准确率。提高识别准确率。提高识别准确率。

【技术实现步骤摘要】
图文识别方法、装置、计算机设备及存储介质


[0001]本专利技术涉及图文识别方法,更具体地说是指图文识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]图文识别是目前AI(人工智能,Artificial Intelligence)领域的关键应用技术之一,具有广阔的应用场景,目前得到广泛的研究。但是目前大多数的图文识别方法都是基于文字本身所呈现的图像视觉信息而进行识别,而银行领域的图片存在光亮度、色差、褶皱、表面掩映等情况,甚至对于图片中部分形体相近的文字,都导致这部分的文字识别不准确。
[0003]因此,有必要设计一种新的方法,实现精准识别银行领域的图片内的文字,避免由于光亮度、色差、褶皱、表面掩映、形体相近等多种干扰因素而导致的识别错误,提高识别准确率。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的缺陷,提供图文识别方法、装置、计算机设备及存储介质。
[0005]为实现上述目的,本专利技术采用以下技术方案:图文识别方法,包括:
[0006]获取银行领域的待识别图片;
[0007]对所述待识别图片进行预处理,以得到潜在文本区域;
[0008]对所述潜在文本区域输入至文字识别模型内进行图文识别,以得到第一识别结果;
[0009]对所述第一识别结果进行矫正处理,以得到第二识别结果;
[0010]输出所述第二识别结果。
[0011]其进一步技术方案为:所述对所述待识别图片进行预处理,以得到潜在文本区域,包括:
[0012]对所述待处理图片进行图片灰度化处理,以得到第一处理结果;
[0013]对所述第一处理结果进行尺寸缩放,以得到第二处理结果;
[0014]对所述第二处理结果进行倾斜旋转矫正,以得到第三处理结果;
[0015]对所述第三处理结果进行文字区域定位,以得到潜在文本区域。
[0016]其进一步技术方案为:所述对所述第三处理结果进行文字区域定位,以得到潜在文本区域,包括:
[0017]采用图像滑动窗口在所述第三处理结果上提取多种CNN卷积特征;
[0018]对所述特征进行二分类,并筛选出含有文字字符的图像滑动窗口;
[0019]采用最大区域连通图轮廓识别算法结合含有文字字符的图像滑动窗口对所述第三处理结果进行轮廓提取,以得到潜在文本区域。
[0020]其进一步技术方案为:所述文字识别模型是通过带有文字标签的图片作为样本集训练优化后的CRNN网络,其中,优化后的CRNN网络是训练后的Bert语言模型替换CRNN网络的BLSTM形成的;训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的。
[0021]其进一步技术方案为:所述训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的,包括:
[0022]获取银行领域的语料数据集合,并对所述语料数据集合按照特殊标点符号切分成自然分句,以得到第一样本集;
[0023]对所述第一样本集进行向量化表征处理,以得到特征化样本集;
[0024]构建Bert语言模型;
[0025]采用所述特征化样本集对所述Bert语言模型进行训练,以得到训练后的Bert语言模型。
[0026]其进一步技术方案为:所述对所述第一识别结果进行矫正处理,以得到第二识别结果,包括:
[0027]对所述第一识别结果进行图文表格识别和合并,以得到处理结果;
[0028]对所述处理结果进行同一段落的图文段落合并,以得到第二识别结果。
[0029]其进一步技术方案为:所述对所述第一识别结果进行图文表格识别和合并,以得到处理结果,包括:
[0030]对所述第一识别结果进行特征信息抽取,以得到提取结果;
[0031]对所述提取结果按照类型、位置、行列数信息进行CNN特征抽取,以得到抽取结果;
[0032]按照全连接方式对抽取结果进行二分类判别,以得到判别结果;
[0033]根据所述判别结果进行表格行列合并,以得到处理结果。
[0034]本专利技术还提供了图文识别装置,包括:
[0035]图片获取单元,用于获取银行领域的待识别图片;
[0036]预处理单元,用于对所述待识别图片进行预处理,以得到潜在文本区域;
[0037]识别单元,用于对所述潜在文本区域输入至文字识别模型内进行图文识别,以得到第一识别结果;
[0038]处理单元,用于对所述第一识别结果进行矫正处理,以得到第二识别结果;
[0039]输出单元,用于输出所述第二识别结果。
[0040]本专利技术还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
[0041]本专利技术还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
[0042]本专利技术与现有技术相比的有益效果是:本专利技术通过对银行领域的待识别图片进行灰度化、尺寸缩放、倾斜旋转矫正以及文字区域定位处理,确定潜在文本区域,再采用文字识别模型确定文本内容,再进行图文进行表格识别、字段合并等后继处理操作,确定最终的文本内容,实现精准识别银行领域的图片内的文字,避免由于光亮度、色差、褶皱、表面掩映、形体相近等多种干扰因素而导致的识别错误,提高识别准确率。
[0043]下面结合附图和具体实施例对本专利技术作进一步描述。
附图说明
[0044]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]图1为本专利技术实施例提供的图文识别方法的应用场景示意图;
[0046]图2为本专利技术实施例提供的图文识别方法的流程示意图;
[0047]图3为本专利技术实施例提供的图文识别方法的子流程示意图;
[0048]图4为本专利技术实施例提供的图文识别方法的子流程示意图;
[0049]图5为本专利技术实施例提供的图文识别方法的子流程示意图;
[0050]图6为本专利技术实施例提供的图文识别方法的子流程示意图;
[0051]图7为本专利技术实施例提供的图文识别方法的子流程示意图;
[0052]图8为本专利技术实施例提供的文字识别模型的结构示意图;
[0053]图9为本专利技术实施例提供的图文识别装置的示意性框图;
[0054]图10为本专利技术实施例提供的图文识别装置的预处理单元的示意性框图;
[0055]图11为本专利技术实施例提供的图文识别装置的定位子单元的示意性框图;
[0056]图12为本专利技术实施例提供的图文识别装置的处理单元的示意性框图;
[0057]图13为本专利技术实施例提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.图文识别方法,其特征在于,包括:获取银行领域的待识别图片;对所述待识别图片进行预处理,以得到潜在文本区域;对所述潜在文本区域输入至文字识别模型内进行图文识别,以得到第一识别结果;对所述第一识别结果进行矫正处理,以得到第二识别结果;输出所述第二识别结果。2.根据权利要求1所述的图文识别方法,其特征在于,所述对所述待识别图片进行预处理,以得到潜在文本区域,包括:对所述待处理图片进行图片灰度化处理,以得到第一处理结果;对所述第一处理结果进行尺寸缩放,以得到第二处理结果;对所述第二处理结果进行倾斜旋转矫正,以得到第三处理结果;对所述第三处理结果进行文字区域定位,以得到潜在文本区域。3.根据权利要求1所述的图文识别方法,其特征在于,所述对所述第三处理结果进行文字区域定位,以得到潜在文本区域,包括:采用图像滑动窗口在所述第三处理结果上提取多种CNN卷积特征;对所述特征进行二分类,并筛选出含有文字字符的图像滑动窗口;采用最大区域连通图轮廓识别算法结合含有文字字符的图像滑动窗口对所述第三处理结果进行轮廓提取,以得到潜在文本区域。4.根据权利要求1所述的图文识别方法,其特征在于,所述文字识别模型是通过带有文字标签的图片作为样本集训练优化后的CRNN网络,其中,优化后的CRNN网络是训练后的Bert语言模型替换CRNN网络的BLSTM形成的;训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的。5.根据权利要求4所述的图文识别方法,其特征在于,所述训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的,包括:获取银行领域的语料数据集合,并对所述语料数据集合按照特...

【专利技术属性】
技术研发人员:高鹏康维鹏袁兰吴飞周伟华高峰潘晶
申请(专利权)人:杭州摸象大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1