【技术实现步骤摘要】
光学字符识别方法、装置、电子设备及存储介质
本申请涉及计算机应用技术,特别人工智能和深度学习领域的光学字符识别方法、装置、电子设备及存储介质。
技术介绍
光学字符识别(OCR,OpticalCharacterRecognition)技术在工业界有着广泛的应用,如证件识别等。目前的OCR实现方法通常都比较复杂,从而导致识别速度较慢等。
技术实现思路
本申请提供了光学字符识别方法、装置、电子设备及存储介质。一种光学字符识别方法,包括:针对待识别的图片,确定出其中的文本区域的包围框,根据所述包围框从所述待识别的图片中提取出文本区域图片;确定出所述文本区域图片中的文本行的包围框,根据所述包围框从所述文本区域图片中提取出文本行图片;对所述文本行图片进行文本序列识别,得到识别结果。一种光学字符识别装置,包括:第一图片处理模块、第二图片处理模块以及文本识别模块;所述第一图片处理模块,用于针对待识别的图片,确定出其中的文本区域的包围框,根据所述包围框从所述待识别的图片中提取
【技术保护点】
1.一种光学字符识别方法,其特征在于,包括:/n针对待识别的图片,确定出其中的文本区域的包围框,根据所述包围框从所述待识别的图片中提取出文本区域图片;/n确定出所述文本区域图片中的文本行的包围框,根据所述包围框从所述文本区域图片中提取出文本行图片;/n对所述文本行图片进行文本序列识别,得到识别结果。/n
【技术特征摘要】
1.一种光学字符识别方法,其特征在于,包括:
针对待识别的图片,确定出其中的文本区域的包围框,根据所述包围框从所述待识别的图片中提取出文本区域图片;
确定出所述文本区域图片中的文本行的包围框,根据所述包围框从所述文本区域图片中提取出文本行图片;
对所述文本行图片进行文本序列识别,得到识别结果。
2.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:在确定出所述文本区域图片中的文本行的包围框之前,确定出所述文本区域图片的调整方式,并按照确定出的调整方式对所述文本区域图片进行尺寸调整。
3.根据权利要求2所述的方法,其特征在于,
该方法进一步包括:将所述待识别的图片输入预先训练得到的轻量级文本尺度预判模型,得到输出的单通道的文本区域掩膜图以及文本尺度图;
其中,所述文本区域掩膜图中的各像素点的取值分别表示对应像素点属于文本区域的概率,所述文本尺度图中的各像素点的取值分别表示对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值;
所述确定出其中的文本区域的包围框包括:根据所述文本区域掩膜图确定出所述待识别的图片中的文本区域的包围框;
所述确定出所述文本区域图片的调整方式包括:根据所述文本尺度图确定出所述文本区域图片的调整方式。
4.根据权利要求3所述的方法,其特征在于,
所述根据所述文本区域掩膜图确定出所述待识别的图片中的文本区域的包围框包括:
通过连通域分析确定出所述文本区域掩膜图中的文本连通域;
针对任一文本连通域,分别确定出所述待识别的图片中包含所述文本连通域的最小矩形,作为所述文本连通域对应的文本区域的包围框。
5.根据权利要求3所述的方法,其特征在于,
所述根据所述文本尺度图确定出所述文本区域图片的调整方式包括:
针对任一文本区域图片,分别确定出所述文本区域图片中的各像素点在所述文本尺度图中的取值,所述文本区域图片中的各像素点在所述文本尺度图中的取值相同;
所述文本区域图片的调整方式包括:在保留所述文本区域图片的宽高比的前提下,对所述文本区域图片的宽和高的尺寸进行调整,使得调整后的文本行的最短边的尺寸等于所述最佳尺寸。
6.根据权利要求3所述的方法,其特征在于,
所述轻量级文本尺度预判模型中包括:第一特征提取模块、第一预测模块以及第二预测模块;其中,所述第一特征提取模块用于对输入的图片进行特征提取,所述第一预测模块用于根据特征提取结果生成所述文本区域掩膜图,所述第二预测模块用于根据所述特征提取结果生成所述文本尺度图。
7.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:将所述文本区域图片输入预先训练得到的轻量级文本检测模型,得到输出的单通道的文本中心线响应图以及四通道的文本边界区域偏移图;
其中,所述文本中心线响应图中的各像素点的取值分别表示对应像素点属于文本行中心线区域的概率,所述文本边界区域偏移图中的各像素点的取值分别表示对应像素点距离其所属文本行的上边界的水平和垂直方向距离以及距离其所属文本行的下边界的水平和垂直方向距离;
所述确定出所述文本区域图片中的文本行的包围框包括:结合所述文本中心线响应图以及所述文本边界区域偏移图确定出所述文本区域图片中的文本行的包围框。
8.根据权利要求7所述的方法,其特征在于,
所述结合所述文本中心线响应图以及所述文本边界区域偏移图确定出所述文本区域图片中的文本行的包围框包括:
通过对所述文本中心线响应图进行连通域分析,确定出各文本行的中心线;
针对任一中心线,分别结合所述中心线上的像素点在所述文本边界区域偏移图中的取值确定出所述中心线对应的文本行的包围框,并将所述包围框对应到所述文本区域图片中。
9.根据权利要求7所述的方法,其特征在于,
所述轻量级文本检测模型中包括:第二特征提取模块、第三预测模块以及第四预测模块;其中,所述第二特征提取模块用于对输入的图片进行特征提取,所述第三预测模块用于根据特征提取结果生成所述文本中心线响应图,所述第四预测模块用于根据所述特征提取结果生成所述文本边界区域偏移图。
10.根据权利要求1所述的方法,其特征在于,
所述对所述文本行图片进行文本序列识别,得到识别结果包括:将所述文本行图片输入预先训练得到的轻量级文本序列识别模型,得到输出的识别结果;其中,所述轻量级文本序列识别模型中的特征提取卷积网络结构采用自动机器学习模型搜索方式确定。
11.一种光学字符识别装置,其特征在于,包括:第一图片处理模块、第二图片处理模块以及文本识别模块;
所述...
【专利技术属性】
技术研发人员:恩孟一,刘珊珊,李轩,章成全,许海伦,张晓强,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。