一种文本图形偏移角度预测及其校正方法技术

技术编号：28422037 阅读：14 留言：0更新日期：2021-05-11 18:29

本发明专利技术公开了一种文本图形偏移角度预测及其校正方法，包括四个步骤：(1)获取待识别文本图像；(2)将待识别文本图像输入至深度学习的文本方向分类模型中，通过文本方向分类模型回归预测得到文本检测框的坐标和文本偏移角度，即检测到票据中的文本位置；(3)根据文本检测框的坐标，与标准文本框的坐标方向进行对比，判断是否是标准方向；(4)若待识别文本图像方向不是标准方向，转换为标准方向。本发明专利技术中，可以批量的对文本图像进行一个任意角度的角度分类，返回一个角度偏移预测值，这个值会与标准角度进行对比，自动将非标准角度的文本图像转换为标准角度的文本图像，模型大小仅3M，可以部署在PC或者移动端，同时有很高的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本图形偏移角度预测及其校正方法
本专利技术涉及文本图像校正
，尤其涉及一种文本图形偏移角度预测及其校正方法。
技术介绍
随着移动互联、大数据和人工智能的发展，互联网进入了新的时代，这个新时代正在快速的改变人类社会的传统，也给传统的银行业，特别是以网点柜员和经理为核心的传统的银行服务模式带来了很大的冲击，人工智能的应用日益广泛，文本方向分类技术等人工智能技术开始广泛应用到银行、企业等各个商业领域，精准将银行票据根据文本方向进行分类。然而，首先，现有银行在批量处理票据时，大多数都使用手动调整票据的角度，并不能自动地批量地去摆正上传图片有偏移的图片；一些文本方向的分类器只可以进行0°和180°的角度分类，无法对任意角度的文本图片进行分类；在进行文本角度分类后，无法对图片进行一个相应的自动摆正；其次，现阶段一些算法模型都是一些重量性的模型，无法部署在移动端且调用速度过慢无法满足落地需求。
技术实现思路
本专利技术的目的在于：为了解决上述
技术介绍
中所提到的技术问题，而提出的一种文本图形偏移角度预测及其校正方法。为了实现上述目的，本专利技术采用了如下技术方案：一种文本图形偏移角度预测及其校正方法，包括以下步骤：(1)获取待识别文本图像；(2)将待识别文本图像输入至深度学习的文本方向分类模型中，通过文本方向分类模型回归预测得到文本检测框的坐标和文本偏移角度，即检测到票据中的文本位置；(3)根据文本检测框的坐标，与标准文本框的坐标...

【技术保护点】
1.一种文本图形偏移角度预测及其校正方法，其特征在于，包括以下步骤：/n(1)获取待识别文本图像；/n(2)将待识别文本图像输入至深度学习的文本方向分类模型中，通过文本方向分类模型回归预测得到文本检测框的坐标和文本偏移角度，即检测到票据中的文本位置；/n(3)根据文本检测框的坐标，与标准文本框的坐标方向进行对比，判断是否是标准方向；/n(4)若待识别文本图像方向不是标准方向，转换为标准方向；/n所述文本方向分类模型中使用到MobileNetV3模型，所述MobileNetV3模型包括用于提取出候选文本区域特征的深度可分卷积神经网络和用于划分候选区文本的非极大值抑制算法；/n所述深度可分卷积神经网络包括用于提取文本特征的一个3×3的卷积层和平均池化层，所述平均池化层由多个卷积层组成，所述平均池化层与输出层之间通过两个1×1的卷积层连接，所述深度可分卷积神经网络的激活函数采用了h-swish函数；/n所述深度可分卷积神经网络在训练过程中通过调节模型基础参数以优化模型；/n所述深度可分卷积神经网络在训练时采用了交叉熵损函数；/n所述MobileNetV3模型的训练集的生成过程中采用了图像增强...

【技术特征摘要】
1.一种文本图形偏移角度预测及其校正方法，其特征在于，包括以下步骤：
(1)获取待识别文本图像；
(2)将待识别文本图像输入至深度学习的文本方向分类模型中，通过文本方向分类模型回归预测得到文本检测框的坐标和文本偏移角度，即检测到票据中的文本位置；
(3)根据文本检测框的坐标，与标准文本框的坐标方向进行对比，判断是否是标准方向；
(4)若待识别文本图像方向不是标准方向，转换为标准方向；
所述文本方向分类模型中使用到MobileNetV3模型，所述MobileNetV3模型包括用于提取出候选文本区域特征的深度可分卷积神经网络和用于划分候选区文本的非极大值抑制算法；
所述深度可分卷积神经网络包括用于提取文本特征的一个3×3的卷积层和平均池化层，所述平均池化层由多个卷积层组成，所述平均池化层与输出层之间通过两个1×1的卷积层连接，所述深度可分卷积神经网络的激活函数采用了h-swish函数；
所述深度可分卷积神经网络在训练过程中通过调节模型基础参数以优化模型；
所述深度可分卷积神经网络在训练时采用了交叉熵损函数；
所述MobileNetV3模型的训练集的生成过程中采用了图像增强处理手段；
所述步骤(4)通过使用坐标旋转公式和OPENCV技术分别将图像中文本区域以瞬时针旋转对应的角度，将其转换为标准方向。

2.根据权利要求1所述的一种文本图形偏移角度预测及其校正方法，其特征在于，所述非极大值抑制算法的流程包括以下步骤：
(1)将文本方向分类模型回归得到的文本检测框的坐标按类别划分；
(2)对每个物体类中的边界框(B_BOX)，按照分类置信度降序排列；
(3)在某一类中，选择置信度最高的边界框B_BOX1，将B_BOX1从输入列表中去除，并加入输出列表；
(4)逐个计算B_BOX1与其余B_BOX2的交并比IoU，若IoU(B_BOX1,B_BOX2)>阈值TH，则在输入去除B_BOX2；
(5)重复步骤3～4，直到输入列表为空，完成一个物体类的遍历；
(6)重复2～5，直到所有物体类的非极大值抑制算法处理完成；
(7)输出列表，算法结束。

3.根据权利要求1所述的一种文本图形偏移角度预测及其校正方法，其特征在于，所述MobileNetV3模型的...

【专利技术属性】
技术研发人员：励建科，陈再蝶，朱晓秋，邓明明，樊伟东，周杰，
申请(专利权)人：浙江康旭科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人