一种文本图形偏移角度预测及其校正方法技术

技术编号:28422037 阅读:14 留言:0更新日期:2021-05-11 18:29
本发明专利技术公开了一种文本图形偏移角度预测及其校正方法,包括四个步骤:(1)获取待识别文本图像;(2)将待识别文本图像输入至深度学习的文本方向分类模型中,通过文本方向分类模型回归预测得到文本检测框的坐标和文本偏移角度,即检测到票据中的文本位置;(3)根据文本检测框的坐标,与标准文本框的坐标方向进行对比,判断是否是标准方向;(4)若待识别文本图像方向不是标准方向,转换为标准方向。本发明专利技术中,可以批量的对文本图像进行一个任意角度的角度分类,返回一个角度偏移预测值,这个值会与标准角度进行对比,自动将非标准角度的文本图像转换为标准角度的文本图像,模型大小仅3M,可以部署在PC或者移动端,同时有很高的准确率。

【技术实现步骤摘要】
一种文本图形偏移角度预测及其校正方法
本专利技术涉及文本图像校正
,尤其涉及一种文本图形偏移角度预测及其校正方法。
技术介绍
随着移动互联、大数据和人工智能的发展,互联网进入了新的时代,这个新时代正在快速的改变人类社会的传统,也给传统的银行业,特别是以网点柜员和经理为核心的传统的银行服务模式带来了很大的冲击,人工智能的应用日益广泛,文本方向分类技术等人工智能技术开始广泛应用到银行、企业等各个商业领域,精准将银行票据根据文本方向进行分类。然而,首先,现有银行在批量处理票据时,大多数都使用手动调整票据的角度,并不能自动地批量地去摆正上传图片有偏移的图片;一些文本方向的分类器只可以进行0°和180°的角度分类,无法对任意角度的文本图片进行分类;在进行文本角度分类后,无法对图片进行一个相应的自动摆正;其次,现阶段一些算法模型都是一些重量性的模型,无法部署在移动端且调用速度过慢无法满足落地需求。
技术实现思路
本专利技术的目的在于:为了解决上述
技术介绍
中所提到的技术问题,而提出的一种文本图形偏移角度预测及其校正方法。为了实现上述目的,本专利技术采用了如下技术方案:一种文本图形偏移角度预测及其校正方法,包括以下步骤:(1)获取待识别文本图像;(2)将待识别文本图像输入至深度学习的文本方向分类模型中,通过文本方向分类模型回归预测得到文本检测框的坐标和文本偏移角度,即检测到票据中的文本位置;(3)根据文本检测框的坐标,与标准文本框的坐标方向进行对比,判断是否是标准方向;(4)若待识别文本图像方向不是标准方向,转换为标准方向;所述文本方向分类模型中使用到MobileNetV3模型,所述MobileNetV3模型包括用于提取出候选文本区域特征的深度可分卷积神经网络和用于划分候选区文本的非极大值抑制算法;所述深度可分卷积神经网络包括用于提取文本特征的一个3×3的卷积层和平均池化层,所述平均池化层由多个卷积层组成,所述平均池化层与输出层之间通过两个1×1的卷积层连接,所述深度可分卷积神经网络的激活函数采用了h-swish函数;所述深度可分卷积神经网络在训练过程中通过调节模型基础参数以优化模型;所述深度可分卷积神经网络在训练时采用了交叉熵损函数;所述MobileNetV3模型的训练集的生成过程中采用了图像增强处理手段;所述步骤(4)通过使用坐标旋转公式和OPENCV技术分别将图像中文本区域以瞬时针旋转对应的角度,将其转换为标准方向。作为上述技术方案的进一步描述:所述非极大值抑制算法的流程包括以下步骤:(1)将文本方向分类模型回归得到的文本检测框的坐标按类别划分;(2)对每个物体类中的边界框(B_BOX),按照分类置信度降序排列;(3)在某一类中,选择置信度最高的边界框B_BOX1,将B_BOX1从输入列表中去除,并加入输出列表;(4)逐个计算B_BOX1与其余B_BOX2的交并比IoU,若IoU(B_BOX1,B_BOX2)>阈值TH,则在输入去除B_BOX2;(5)重复步骤3~4,直到输入列表为空,完成一个物体类的遍历;(6)重复2~5,直到所有物体类的非极大值抑制算法处理完成;(7)输出列表,算法结束。作为上述技术方案的进一步描述:所述MobileNetV3模型的h-swish激活函数的计算公式为ReLU是一种激活函数;ReLU的公式为:x为输入的特征值。作为上述技术方案的进一步描述:获得所述文本方向分类模型的训练过程包括以下步骤:(1)获取文本图像;(2)对所获取的文本图像进行图像增强处理;(3)将进行图像增强处理过后的图像作为训练集,对原有的深度可分卷积神经网络进行训练;(4)在训练过程中对原有深度可分卷积神经网络的模型基础参数进行调节,使用交叉熵损失函数,同时进行模型评估。作为上述技术方案的进一步描述:所述图像增强处理包括以下步骤:(1)对所获取的文本图像进行图像旋转;(2)将已经进行图像旋转的文本图像进行透视变换。作为上述技术方案的进一步描述:所述图像旋转采用的公式为:x′=(x0-xcenter)cosθ-(y0-ycenter)sinθ+xcenter;y′=(x0-xcenter)sinθ-(y0-ycenter)cosθ+ycenter(left,top)表示图像的左上角坐标;(right,bottom)表示图像的右下角坐标;(x0,y0)表示图像上的任意点坐标;(xcenter,ycenter)表示图像的中心点坐标;(x′,y′)表示新的坐标位置。作为上述技术方案的进一步描述:所述透视变换的通用变换公式为:((u,v)为原始图像像素坐标),为变换之后的图像像素坐标,透视变换矩阵如下:表示图像线性变换;T2=[a13,a23]T用于产生图像透视变换;T3=[a31,a32]表示图像平移。作为上述技术方案的进一步描述:所述交叉熵损失函数为:W是权重;xi,yi是特征值;b是偏移值。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1、本专利技术中,可以批量的对文本图像进行一个任意角度的角度分类,图片经过模型预测后,返回一个角度偏移预测值,这个值会与标准角度进行对比,自动将非标准角度的文本图像转换为标准角度的文本图像,整个系统的在对于票据偏移图像预处理的阶段提供了非常方便的技术支持,将其图片自动进行摆正的功能,方便后续的图片检测和识别,减少了人工的人力成本和时间。2、本专利技术中,提供了一个轻量的算法模型,模型大小仅3M,可以部署在PC或者移动端,同时有很高的准确率。3、本专利技术中,在读取训练所需的参数文件进行训练的过程中,系统使用自动调整学习率的方法来对学习率进行修改,使用自动调整学习率方法的作用是因为优化深度神经网络在很大程度上被认为是一个经验过程,它需要手动调节几个参数,例如学习率、权重衰减以及随机失活率,可以说,学习率是这些需要调节的参数中最重要的一个,与固定的学习率相比,变化的学习率调度系统能够提供更快的收敛,可以提高模型的训练速度和增强模型的泛化能力,使用银行票据的图像,对其图像进行相应的图像增强技术,例如图像旋转,图像透视变换等方向变换的技术手段对图片进行旋转并进行图片标注,以及使用运动模糊和高斯噪声,此操作的目的增加训练集图片的数量,为了提高模型的泛化能力,避免模型的过拟合,在经过多次的消融训练后,系统达到了一个良好的分类效果,并可以根据识别到的分类角度,并进行一个自动的矫正,系统的输出的结果包括预测的角度值和置信度,系统会通过角度预测值对图片进行一个自动纠正到标准位置,根据置信度来提示一个预警本文档来自技高网...

【技术保护点】
1.一种文本图形偏移角度预测及其校正方法,其特征在于,包括以下步骤:/n(1)获取待识别文本图像;/n(2)将待识别文本图像输入至深度学习的文本方向分类模型中,通过文本方向分类模型回归预测得到文本检测框的坐标和文本偏移角度,即检测到票据中的文本位置;/n(3)根据文本检测框的坐标,与标准文本框的坐标方向进行对比,判断是否是标准方向;/n(4)若待识别文本图像方向不是标准方向,转换为标准方向;/n所述文本方向分类模型中使用到MobileNetV3模型,所述MobileNetV3模型包括用于提取出候选文本区域特征的深度可分卷积神经网络和用于划分候选区文本的非极大值抑制算法;/n所述深度可分卷积神经网络包括用于提取文本特征的一个3×3的卷积层和平均池化层,所述平均池化层由多个卷积层组成,所述平均池化层与输出层之间通过两个1×1的卷积层连接,所述深度可分卷积神经网络的激活函数采用了h-swish函数;/n所述深度可分卷积神经网络在训练过程中通过调节模型基础参数以优化模型;/n所述深度可分卷积神经网络在训练时采用了交叉熵损函数;/n所述MobileNetV3模型的训练集的生成过程中采用了图像增强处理手段;/n所述步骤(4)通过使用坐标旋转公式和OPENCV技术分别将图像中文本区域以瞬时针旋转对应的角度,将其转换为标准方向。/n...

【技术特征摘要】
1.一种文本图形偏移角度预测及其校正方法,其特征在于,包括以下步骤:
(1)获取待识别文本图像;
(2)将待识别文本图像输入至深度学习的文本方向分类模型中,通过文本方向分类模型回归预测得到文本检测框的坐标和文本偏移角度,即检测到票据中的文本位置;
(3)根据文本检测框的坐标,与标准文本框的坐标方向进行对比,判断是否是标准方向;
(4)若待识别文本图像方向不是标准方向,转换为标准方向;
所述文本方向分类模型中使用到MobileNetV3模型,所述MobileNetV3模型包括用于提取出候选文本区域特征的深度可分卷积神经网络和用于划分候选区文本的非极大值抑制算法;
所述深度可分卷积神经网络包括用于提取文本特征的一个3×3的卷积层和平均池化层,所述平均池化层由多个卷积层组成,所述平均池化层与输出层之间通过两个1×1的卷积层连接,所述深度可分卷积神经网络的激活函数采用了h-swish函数;
所述深度可分卷积神经网络在训练过程中通过调节模型基础参数以优化模型;
所述深度可分卷积神经网络在训练时采用了交叉熵损函数;
所述MobileNetV3模型的训练集的生成过程中采用了图像增强处理手段;
所述步骤(4)通过使用坐标旋转公式和OPENCV技术分别将图像中文本区域以瞬时针旋转对应的角度,将其转换为标准方向。


2.根据权利要求1所述的一种文本图形偏移角度预测及其校正方法,其特征在于,所述非极大值抑制算法的流程包括以下步骤:
(1)将文本方向分类模型回归得到的文本检测框的坐标按类别划分;
(2)对每个物体类中的边界框(B_BOX),按照分类置信度降序排列;
(3)在某一类中,选择置信度最高的边界框B_BOX1,将B_BOX1从输入列表中去除,并加入输出列表;
(4)逐个计算B_BOX1与其余B_BOX2的交并比IoU,若IoU(B_BOX1,B_BOX2)>阈值TH,则在输入去除B_BOX2;
(5)重复步骤3~4,直到输入列表为空,完成一个物体类的遍历;
(6)重复2~5,直到所有物体类的非极大值抑制算法处理完成;
(7)输出列表,算法结束。


3.根据权利要求1所述的一种文本图形偏移角度预测及其校正方法,其特征在于,所述MobileNetV3模型的...

【专利技术属性】
技术研发人员:励建科陈再蝶朱晓秋邓明明樊伟东周杰
申请(专利权)人:浙江康旭科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1