本发明专利技术属于图像识别技术领域,涉及一种低像素密度文本的识别方法。该方法的具体步骤为:对待识别的低像素密度文本进行图像信息采集,并将采集的图像信息输入并进行预处理,进行初步定位;再次进行精确定位;根据得到精确定位结果进行图像信息区域识别,并对识别后的结果进行分类,将分类数据分别输入特殊符号识别模型和普通文本识别模型进行识别;对识别后结果进行汇总和结构化输出。本发明专利技术的有益效果是:该方法通过对低像素密度文本中含有特殊符号的文字区域进行判别,对特殊符号使用训练后模型进行识别从而提高特殊符号识别准确率,识别过程分多步骤进行,但涉及检测和再识别网络都比较小,可以有效提高识别效率。
【技术实现步骤摘要】
一种低像素密度文本的识别方法
本专利技术属于图像识别
,具体涉及一种低像素密度文本的识别方法。
技术介绍
目前,在交易、贸易和企业间业务往来中会产生大量的纸质单据,如信用证、汇票、发票、合同、运输单据等。这些纸质单据往往需要录入到相应的业务系统中,这需要大量的人工和重复劳动,且效率低下容易出错。OCR(OpticalCharacterRecognition)技术是一种通过图像识别将图像中的文字转换成文本的技术。因此在处理各类单证票据场景下,OCR技术可以有效解决人工录入带来的问题。常见的单证票据中,存在大量的特殊符号,诸如单选框、复选框、下划线以及条款约束脚注等,而目前市场上存在的OCR识别系统无法有效的处理和识别。由于这些区域像素密度比价低,常用的深度学习检测方法召回率比较低,易出现漏检现象;由于特殊符号出现的频率较低,且与汉字结构相似,通过扩充训练数据集进行迁移学习也很难达到较好的识别效果。
技术实现思路
本专利技术公开了一种低像素密度文本的识别方法,以解决现有技术的上述以及其他潜在问题中任一问题。为了达到上述目的,本专利技术的技术方案是:一种低像素密度文本的识别方法,该方法的具体包括以下步骤:S1)对待识别的低像素密度文本进行图像信息采集,并将采集的图像信息输入;S2)对输入的图像信息进行预处理,并利用SIFT(Scale-InvariantfeatureTransform,SIFT即尺度不变特征变换)处理图像信息区域进行初步定位;S3)根据S2)得到初步定位的结果再次进行精确定位;S4)对S3)得到精确定位结果进行图像信息区域识别,并对识别后的结果进行分类,得到普通文本区域和特殊符号区域;S5)将S4)得到普通文本区域和特殊符号区域分别输入特殊符号识别模型和普通文本识别模型进行识别;S6)对识别后结果进行汇总和结构化输出。所述低像素密度文本即包含大量的特殊符号,诸如单选框、复选框、下划线以及脚注等致使局部像素密度很低的文本识别。进一步,所述S5)中还包括校正步骤:通过纠错校正机制,对识别的结果进行后期校正。进一步,所述S2的具体步骤为:S2.1)采用特征点匹配算法将输入的图像信息转化为矩阵,S2.2)通过构建尺度空间和高斯空间差分金字塔,计算极值点和相应的坐标,S2.3)根据S2.2)得到所有的极值点判别和定位特殊符号在图像信息中的大致坐标并提取对应的图像区域,完成初步定位。进一步,所述S3)的具体步骤为:S3.1)将经过S2.3)初步定位的结果输入CRAFT深度学习检测模型,S3.2)利用CRAFT深度学习检测模型计算得到图像信息中包含普通文本区域和特殊符号区域的区域坐标,提取所述区域坐标内的图像信息并提取对应图像的方向梯度直方图特征,S3.3)根据S3.2)得到梯度直方图特征利用SVM向量机对梯度直方图进行二分类,分为普通文本区域和特殊符号区域。进一步,所述S4)的具体步骤为:S4.1)先将S3.3)得到的普通文本区域输入训练后的普通文本识别模型进行识别,并输出识别结果;S4.2)再将S3.3)得到的特殊符号区域输入训练后的特殊符号识别模型进行识别,并输出识别结果。进一步,所述文本识别模型和特殊符号识别模型训练的具体步骤为:步骤1:将标记百万级图片内的文本内容作为网络模型的训练集;步骤2:对所述训练集内所有待训练图片做统一处理,转化为值域为[-1,1]的矩阵;步骤3:再将所述训练集内所有待训练图片随机分成若干组,将分组后的图片与S4.12)得到的矩阵按照所述分组进行组合,得到batch批次;步骤4:将步骤3得到的batch批次输入到对应的识别模型的输入层中,在输出层中比较输出结果和样本标签实际值的误差计算最终值;步骤5:若输出层经过CTC算法(ConnectionistTemporalClassification,主要用于处理序列标注问题中的输入与输出标签的对齐)处理之后的输出结果和实际标签结果差别较小则执行步骤7,否则执行步骤6;步骤6:更新当前对应的卷积神经识别模型的隐层中各神经元的网络权值和阈值,使网络误差函数沿负梯度方向下降,使输出结果逼近期望输出,然后返回步骤4;步骤7:即得到训练后的普通文本识别模型和特殊符号识别模型。进一步,所述步骤2中的统一处理方式包括灰度化或二值化。一种实现上述的低像素密度文本的识别方法的计算机程序。一种实现上述的低像素密度文本的识别方法的信息处理终端。一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的低像素密度文本的识别方法的方法。本专利技术的有益效果是,由于采用上述技术方案,本专利技术是一种多阶段识别方案,主要包括特征符号区域筛选、识别定位以及再识别校正等步骤,这是一个逐步精细化识别的过程。该方法通过对含有特殊符号的文字区域进行判别,对特殊符号使用训练后模型进行识别从而提高特殊符号识别准确率,识别过程分多步骤进行,但涉及检测和再识别网络都比较小,可以有效提高识别效率。附图说明图1为本专利技术一种低像素密度文本的识别方法的流程框图。图2为待识别的图片的示意图。图3为采用本专利技术方法识别后的被检测出的区域示意图。图中:1.通用文本区域,2.特殊符号区域。具体实施方式下面结合附图和具体实施例对本专利技术的技术方案做进一步说明。如图1所示,本专利技术一种低像素密度文本的识别的方法,该方法的具体包括以下步骤:S1)对待识别的低像素密度文本进行图像信息采集,并将采集的图像信息输入;S2)对输入的图像信息进行预处理,并利用SIFT方法处理图像信息区域进行初步定位;S3)根据S2)得到初步定位的结果再次进行精确定位;S4)对S3)得到精确定位结果进行图像信息区域识别,并对识别后的结果进行分类,得到普通文本区域和特殊符号区域;S5)将S4)得到普通文本区域和特殊符号区域分别输入特殊符号识别模型和普通文本识别模型进行识别;S6)对识别后结果进行汇总和结构化输出。所述S5)中还包括校正步骤:通过纠错校正机制,对识别的结果进行后期校正。所述S2的具体步骤为:S2.1)采用特征点匹配算法将输入的图像信息转化为矩阵,S2.2)通过构建尺度空间和高斯空间差分金字塔,计算极值点和相应的坐标,S2.3)根据S2.2)得到所有的极值点判别和定位特殊符号在图像信息中的大致坐标并提取对应的图像区域,完成初步定位。所述S3)的具体步骤为:S3.1)将经过S2.3)初步定位的结果输入CRAFT深度学习检测模型,S3.2)利用CRAFT深度学习检测模型计算得到图像信息中包含普通文本区域和特殊符号区域的区域坐标,提取所述区域坐标内的图像信息并提取对应图像的方本文档来自技高网...
【技术保护点】
1.一种低像素密度文本的识别方法,其特征在于,该方法具体包括以下步骤:/nS1)对待识别的低像素密度文本进行图像信息采集,并将采集的图像信息输入;/nS2)对输入的图像信息进行预处理,并利用SIFT方法处理图像信息区域进行初步定位;/nS3)根据S2)得到初步定位的结果再次进行精确定位;/nS4)对S3)得到精确定位结果进行图像信息区域识别,并对识别后的结果进行分类,得到普通文本区域和特殊符号区域;/nS5)将S4)得到普通文本区域和特殊符号区域分别输入特殊符号识别模型和普通文本识别模型进行识别;/nS6)对识别后结果进行汇总和结构化输出。/n
【技术特征摘要】
1.一种低像素密度文本的识别方法,其特征在于,该方法具体包括以下步骤:
S1)对待识别的低像素密度文本进行图像信息采集,并将采集的图像信息输入;
S2)对输入的图像信息进行预处理,并利用SIFT方法处理图像信息区域进行初步定位;
S3)根据S2)得到初步定位的结果再次进行精确定位;
S4)对S3)得到精确定位结果进行图像信息区域识别,并对识别后的结果进行分类,得到普通文本区域和特殊符号区域;
S5)将S4)得到普通文本区域和特殊符号区域分别输入特殊符号识别模型和普通文本识别模型进行识别;
S6)对识别后结果进行汇总和结构化输出。
2.根据权利要求1所述的方法,其特征在于,所述S5)中还包括校正步骤:通过纠错校正机制,对识别的结果进行后期校正。
3.根据权利要求1或2所述的方法,其特征在于,所述S2的具体步骤为:
S2.1)采用特征点匹配算法将输入的图像信息转化为矩阵,
S2.2)通过构建尺度空间和高斯空间差分金字塔,计算极值点和相应的坐标,
S2.3)根据S2.2)得到所有的极值点判别和定位特殊符号在图像信息中的大致坐标并提取对应的图像区域,完成初步定位。
4.根据权利要求3所述的方法,其特征在于,所述S3)的具体步骤为:
S3.1)将经过S2.3)初步定位的结果输入CRAFT深度学习检测模型,
S3.2)利用CRAFT深度学习检测模型计算得到图像信息中包含普通文本区域和特殊符号区域的区域坐标,提取所述区域坐标内的图像信息并提取对应图像的方向梯度直方图特征,
S3.3)根据S3.2)得到梯度直方图特征利用SVM向量机对梯度直方图进行二分类,分为普通文本区域和特殊符号区域。
5.根据权利要求4所述的方法,其...
【专利技术属性】
技术研发人员:李振,鲁宾宾,刘挺,陈伟强,陈远琴,孟天祥,翟昶,
申请(专利权)人:民生科技有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。