【技术实现步骤摘要】
表单图像的文本识别方法及其装置、电子设备、存储介质
[0001]本专利技术涉及大数据
,具体而言,涉及一种表单图像的文本识别方法及其装置、电子设备、存储介质。
技术介绍
[0002]当前,很多领域都使用OCR识别技术进行图片、视频识别处理,相关技术中,提高OCR识别率的方法主要有:借助深度学习算法改进图像分类、文本定位或文本识别模型;借助图像预处理手段提高图像质量,但这两类方法均存在一定的缺陷。(1)借助深度学习算法提高文本识别率是较为直接和有效的方法,但是算法的开发成本较高、周期长、投入资金大,通过优化算法来提高OCR文本识别率在短期内是不现实的。(2)借助图像预处理来提高图像质量的方法适用于版式单一、参数维度相对单一、界定相对明显、特别是色彩识别领域,但对于文本图像版式多样、字符字迹复杂多样、特别是手写体等情况表现较差。相关技术中不能针对表单版式、图像来源、待识别文本样式差异较大的表单图像进行通用性识别。
[0003]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0004]本 ...
【技术保护点】
【技术特征摘要】
1.一种表单图像的文本识别方法,其特征在于,包括:接收待识别表单原图;将所述待识别表单原图输入至第一分类模型,输出第一分类结果,其中,所述第一分类结果是指由所述第一分类模型对每张所述待识别表单原图的表单版式、图像来源、待识别文本样式进行分类的结果;调取与每张所述待识别表单原图的所述第一分类结果对应的区域定位模型,将该待识别表单原图输入至所述区域定位模型,输出区域定位图像,其中,所述区域定位图像包括:待识别区域、条目标注,所述待识别区域是由所述区域定位模型基于所述表单版式对所述待识别表单原图进行定位切割得到,所述条目标注是指所述区域定位模型对所述待识别区域中待识别文本的所属条目进行标注的结果;将所述区域定位图像输入至第二分类模型,输出第二分类结果,其中,所述第二分类结果是指由所述第二分类模型对每张所述区域定位图像中的所述待识别文本是否带框进行分类的结果;调取与每张所述区域定位图像的所述第二分类结果对应的文本识别模型,将该区域定位图像输入所述文本识别模型,输出所述待识别区域的文本识别结果。2.根据权利要求1所述的文本识别方法,其特征在于,所述第一分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果,其中,所述表单版式分类结果包括:N个版式,N为正整数,所述图像来源分类结果包括下述至少之一:拍照图像、扫描图像,所述待识别文本样式分类结果包括下述至少之一:手写体文本、印刷体文本。3.根据权利要求1所述的文本识别方法,其特征在于,由所述第一分类模型对每张所述待识别表单原图的表单版式进行分类的步骤,包括:提取所述待识别表单原图中的标题区域块以及每个所述标题区域块中的表头文字;对于每个所述标题区域块中的表头文字,在历史表单数据库中查询该表头文字对应的所述表单版式,其中,所述历史表单数据库中预先存储有各个历史表头文字与表单版式之间的映射关系。4.根据权利要求1所述的文本识别方法,其特征在于,在将所述待识别表单原图输入至第一分类模型之前,还包括:获取所述待识别表单原图的原图比例,并按照所述原图比例将待识别表单原图的第一指定边调整至第一预设长度,其中,所述第一预设长度为预设标准图像的第一指定边长度;获取调整后的所述待识别表单原图的面积,并比较该面积与所述预设标准图像的面积,得到第一比较结果;当所述第一比较结果指示调整后的所述待识别表单原图的面积小于所述预设标准图像的面积时,按照预设填充策略填充所述待识别表单原图,得到填充后的待识别表单原图;当所述第一比较结果指示调整后的所述待识别表单原图的面积大于所述预设标准图像的面积时,按照所述原图比例将待识别表单原图的第二指定边调整至第二预设长度,其中,第二预设长度为所述预设标准图像的第二指定边长度;按照所述预设填充策略填充调整后的所述待识别表单原图,得到填充后的待识别表单原图。5.根据权利要求4所述的文本识别方法,其特征在于,所述预设填充策略包括:
获取调整后的所述待识别表单原图与所述预设标准图像的面积差值;基于面积差值,在调整后的所述待识别表单原图上按照预设颜色的色块进行填充。6.根据权利要求1所述的文本识别方法,其特征在于,所述第一分类模型是通过以下方法得到的:获取M张历史表单图像,M为正整数;接收外部设备输入的每张所述历史表单图像的第一分类结果;将每张所述历史表单图像输入初始分类模型,输出对应该历史表单图像的第一模型分类结果,所述第一模型分类结果包括:表单版式分类结果、图像来源分类结果、待识别文本样式分类结果;比对所述历史表单图像的所述第一分类结果与所述第一模型分类结果,得到第一比对结果;在所述第一比对结果指示所述第一分类结果与所述第一模型分类结果不一致的情况下,调整所述初始分类模型各网络层的参数;对所述初始分类模型进行迭代训练,直至所述M张历史表单图像全部输入完毕,得到所述第一分类模型。7.根据权利要求6所述的文本识别方法,其特征在于,每张所述历史表单图像的第一分类结果是预先生成的,在生成所述第一分类结果时,包括:基于表单版式分类标准对每张所述历史表单图像的表单版式进行分类,得到表单版式分类结果;对所述表单版式分类结果中的所述历史表单图像的图像来源进行分类,得到图片来源分类结果,其中,所述图像来源包括:拍照图像、扫描图像;对所述...
【专利技术属性】
技术研发人员:薛林源,张宏韬,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。