一种通用场景文本检测识别的预处理模型训练方法及系统技术方案

技术编号:33709059 阅读:45 留言:0更新日期:2022-06-06 08:38
本发明专利技术公开了一种通用场景文本检测识别的预处理模型训练方法及系统,属于计算机视觉领域;所述的方法具体步骤如下:S1获取标注好的文本数据集,对图片进行copypaste数据增强操作后送入文本检测网络学习文本区域特征,得到文本检测模型;S2获取文本数据集图片,计算文字区域长边角度θ,根据角度旋转原图片并对旋转后水平区域进行裁剪,将数据划分为0

【技术实现步骤摘要】
一种通用场景文本检测识别的预处理模型训练方法及系统


[0001]本专利技术公开一种通用场景文本检测识别的预处理模型训练方法及系统,涉及计算机视觉


技术介绍

[0002]随着计算机以及人工智能技术的发展,将现实场景中的文字信息,转化为电子设备可以处理的文本信息的应用场景越来越多。在文本检测与识别领域,文本检测与识别的数据标注成本相对普通的图像处理标注成本更高,通常难以获得足够的真实样本数据,并且数据集中大多会包含倾斜文本,若是根据标注好的文本区域坐标直接裁剪生成的文字识别数据背景会产生干扰信息影响文字识别模型识别精度。
[0003]传统的文字识别技术主要包括文本检测与文本识别两个模块,在模型训练时通常通过合成数据增加数据量,采用数据增强方式一般为旋转,翻转以及缩放等常规数据增强操作,并且裁剪出的文字识别数据集通常会包含大量冗余背景信息。该技术在处理单一场景下,例如对文档中文字识别效果较好,但是在两个场景差距较大,且训练数据量较小的情况下识别效果较差,使用同一个模型分别对自然场景下文字识别以及文档文字识别,由于自然场景下文字和文档本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种通用场景文本检测识别的预处理模型训练方法,其特征是所述的方法具体步骤如下:S1获取标注好的文本数据集,对图片进行copypaste数据增强操作后送入文本检测网络学习文本区域特征,得到文本检测模型;S2获取文本数据集图片,计算文字区域长边角度θ,根据角度旋转原图片并对旋转后水平区域进行裁剪,将数据划分为0
°
和180
°
两类后送入图像分类网络学习图像特征,得到文本方向分类模型;S3获取文本数据集,计算文字区域长边角度θ,根据角度旋转原图片并对旋转后水平区域进行剪裁,对图片进行TIA数据增广,将其数据输入到文字识别网络学习文字特征,得到文字识别模型。2.根据权利要求1所述的方法,其特征是所述S1的具体步骤如下:S101获取场景文本检测与识别数据集并进行标注,标注图片中的文字四点坐标位置,文本方向信息以及文本内容;S102根据获取到的图片进行copypaste数据增强,将图片中的文本区域随机进行裁剪,并将裁剪出来的文本图片随机贴到另外一张图片的没有文字信息的位置;S103根据获取到的图片组成batch送入到文本检测网络,采用余弦学习率下降方式以及学习率预热,得到文本检测模型。3.根据权利要求2所述的方法,其特征是所述S2的具体步骤如下:S201根据获取到的数据集,根据图片的文字四点坐标位置计算得到最长边的两个坐标点,由这两个坐标点计算长边斜率k,根据斜率k计算角度θ,将原始图片按照文本方向旋转θ后摆正进行裁剪。S202根据步获取到的图片,将图片分为0
°
和180
°
两类,为平衡两类图片数量,将0
°
图片旋转180
°
作为另外一类图像;S203根据获取到的图片组成batch送入到图像分类网络学习图像特征,得到文本方向分类模型。4.根据权利要求3所述的方法,其特征是所述S3的具体步骤如下:S301对获取到的图片进行随机的TIA数据增广,将图片平均分为N个斑块,并沿图像上下边界初始化2(N+1)个基准点p,并通过遵循一定的分布,将靶标点随机地移动到以p为圆心,半径为R的q处来增强原始图像;S302根据获取到的图片组成batch送入到文字识别网络,采用策略学习文字特征得到文字识别模型。5.一种通用场景文本检测识别的预处理模型训练系统,其特征是所述的系统具体包括文本检测模块、文本方向分类模块和文字识别模块:文本检测模块:...

【专利技术属性】
技术研发人员:马凤强吴运祥李晗刘琛安晓博
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1