图文识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：33848164 阅读：15 留言：0更新日期：2022-06-18 10:33

本发明专利技术实施例公开了图文识别方法、装置、计算机设备及存储介质。所述方法包括：获取银行领域的待识别图片；对所述待识别图片进行预处理，以得到潜在文本区域；对所述潜在文本区域输入至文字识别模型内进行图文识别，以得到第一识别结果；对所述第一识别结果进行矫正处理，以得到第二识别结果；输出所述第二识别结果。通过实施本发明专利技术实施例的方法可实现精准识别银行领域的图片内的文字，避免由于光亮度、色差、褶皱、表面掩映、形体相近等多种干扰因素而导致的识别错误，提高识别准确率。提高识别准确率。提高识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
图文识别方法、装置、计算机设备及存储介质

[0001]本专利技术涉及图文识别方法，更具体地说是指图文识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]图文识别是目前AI(人工智能，Artificial Intelligence)领域的关键应用技术之一，具有广阔的应用场景，目前得到广泛的研究。但是目前大多数的图文识别方法都是基于文字本身所呈现的图像视觉信息而进行识别，而银行领域的图片存在光亮度、色差、褶皱、表面掩映等情况，甚至对于图片中部分形体相近的文字，都导致这部分的文字识别不准确。
[0003]因此，有必要设计一种新的方法，实现精准识别银行领域的图片内的文字，避免由于光亮度、色差、褶皱、表面掩映、形体相近等多种干扰因素而导致的识别错误，提高识别准确率。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的缺陷，提供图文识别方法、装置、计算机设备及存储介质。
[0005]为实现上述目的，本专利技术采用以下技术方案：图文识别方法，包括：
[0006]获取银行领域的待识别图片；
[0007]对所述待识别图片进行预处理，以得到潜在文本区域；
[0008]对所述潜在文本区域输入至文字识别模型内进行图文识别，以得到第一识别结果；
[0009]对所述第一识别结果进行矫正处理，以得到第二识别结果；
[0010]输出所述第二识别结果。
[0011]其进一步技术方案为：所述对所述待识别图片进行预处理，以得到潜在文本区域，包括：
...

【技术保护点】

【技术特征摘要】
1.图文识别方法，其特征在于，包括：获取银行领域的待识别图片；对所述待识别图片进行预处理，以得到潜在文本区域；对所述潜在文本区域输入至文字识别模型内进行图文识别，以得到第一识别结果；对所述第一识别结果进行矫正处理，以得到第二识别结果；输出所述第二识别结果。2.根据权利要求1所述的图文识别方法，其特征在于，所述对所述待识别图片进行预处理，以得到潜在文本区域，包括：对所述待处理图片进行图片灰度化处理，以得到第一处理结果；对所述第一处理结果进行尺寸缩放，以得到第二处理结果；对所述第二处理结果进行倾斜旋转矫正，以得到第三处理结果；对所述第三处理结果进行文字区域定位，以得到潜在文本区域。3.根据权利要求1所述的图文识别方法，其特征在于，所述对所述第三处理结果进行文字区域定位，以得到潜在文本区域，包括：采用图像滑动窗口在所述第三处理结果上提取多种CNN卷积特征；对所述特征进行二分类，并筛选出含有文字字符的图像滑动窗口；采用最大区域连通图轮廓识别算法结合含有文字字符的图像滑动窗口对所述第三处理结果进行轮廓提取，以得到潜在文本区域。4.根据权利要求1所述的图文识别方法，其特征在于，所述文字识别模型是通过带有文字标签的图片作为样本集训练优化后的CRNN网络，其中，优化后的CRNN网络是训练后的Bert语言模型替换CRNN网络的BLSTM形成的；训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的。5.根据权利要求4所述的图文识别方法，其特征在于，所述训练后的Bert语言模型是通过银行领域的语料数据集合作为第一样本集训练Bert语言模型所得的，包括：获取银行领域的语料数据集合，并对所述语料数据集合按照特...

【专利技术属性】
技术研发人员：高鹏，康维鹏，袁兰，吴飞，周伟华，高峰，潘晶，
申请(专利权)人：杭州摸象大数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人