一种面向任意方向和形状的文本检测方法技术

技术编号：23288908 阅读：37 留言：0更新日期：2020-02-08 18:45

本发明专利技术提供一种面向任意方向和形状的文本检测方法，包括人工合成数据训练阶段、弱监督训练阶段和测试阶段，针对有字符标注框的原始数据图像采用人工合成数据训练阶段进行训练，针对只有词级标注框没有字符标注框的原始数据图像，采用弱监督训练阶段进行训练。本发明专利技术可以更好的检测目标较大的文本。同时，在后置处理时对检测到的相邻较近的文本框进行连接操作，有效的减少了文本检测的间断问题。

A text detection method for arbitrary direction and shape

全部详细技术资料下载

【技术实现步骤摘要】
一种面向任意方向和形状的文本检测方法
本专利技术涉及文本检测识别
，尤其涉及一种面向任意方向和形状的文本检测方法。
技术介绍
随着人工智能进程的不断发展，自然场景下的文字识别也成为了该进程中不可或缺的一环。如今，文字在自然场景下无处不在，例如道路中的交通指示牌、商场中店铺的名称、公共场所中的宣传语等等。计算机视觉作为人工智能重要的组成部分，自然场景下的文字识别便是依靠计算机视觉技术。自然场景下的文字识别主要是对视觉图像中的文字识别过程，主要分为图像中文字检测和文字内容识别两个部分。其中，文字检测的主要作用是定位图像中文字的位置便于后期对文字的识别。因此，文字检测在整个文字识别过程中有着至关重要的作用。目前，自然场景下的文字复杂多样。不仅文字角度、形状、颜色多变，而且文字背景复杂，干扰因素众多。因此，基于计算机视觉的方法检测自然场景下的文字是一项极具挑战性的任务。随着深度神经网络的不断发展，目前基于神经网络的文字检测方法主要可以分为三类。第一类是基于通用的目标检测方法，采取生成文字候选框的方式，对候选框进...

【技术保护点】
1.一种面向任意方向和形状的文本检测方法，其特征在于：包括人工合成数据训练阶段和测试阶段，针对有字符标注框的原始数据图像采用人工合成数据训练阶段进行训练，所述的人工合成数据训练阶段包括：/n步骤S1、根据字符标注框对每幅原始数据图像生成独立的区域高斯热力图；/n步骤S2、每两个相邻的字符标注框组成一个字符标注框对，对每个字符标注框对生成连通性高斯热力图；/n步骤S3、对原始数据图像进行数据增强处理，增强处理的方式包括但不限于随机裁剪、随机旋转和颜色转换；/n步骤S4、将增强处理过的数据图像输入CRAFT网络模型中进行训练，得到CRAFT强文本检测模型；/n所述的测试阶段包括：/n步骤S5、将待...

【技术特征摘要】
1.一种面向任意方向和形状的文本检测方法，其特征在于：包括人工合成数据训练阶段和测试阶段，针对有字符标注框的原始数据图像采用人工合成数据训练阶段进行训练，所述的人工合成数据训练阶段包括：
步骤S1、根据字符标注框对每幅原始数据图像生成独立的区域高斯热力图；
步骤S2、每两个相邻的字符标注框组成一个字符标注框对，对每个字符标注框对生成连通性高斯热力图；
步骤S3、对原始数据图像进行数据增强处理，增强处理的方式包括但不限于随机裁剪、随机旋转和颜色转换；
步骤S4、将增强处理过的数据图像输入CRAFT网络模型中进行训练，得到CRAFT强文本检测模型；
所述的测试阶段包括：
步骤S5、将待检测的图像输入CRAFT强文本检测模型中，CRAFT强文本检测模型输出待检测图像中各区域存在文字的概率分数图以及文字连通的概率分数图；
步骤S6、将存在文字的概率分数图和文字连通的概率分数图进行相加，使用连通域算法对相加后的分数图分割出文字区域前景和非文字区域背景；
步骤S7、根据文字区域前景坐标求出所属区域的最小矩形，然后根据对应的坐标变换，将所述最小矩形转换至原始数据图像，进而得到图像中的文字区域；
步骤S8、对所述文字区域处理得到文本检测框；
步骤S9、对文本检测框排序，将同一行中相邻的文本检测框进行连接，合成一个统一的文本检测框。

2.根据权利要求1所述的一种面向任意方向和形状的文本检测方法，其特征在于：所述的步骤S1中独立的区域高斯热力图的生成方法为：对大小为512*512像素的矩形的最大内切圆生成中心点数值为1的高斯图，以高斯图中心点为中心，截取部分高斯图比例为0.4，然后求出截取的高斯图区域仿射变换到字符标注框的放射变换矩阵，最后根据放射变换矩阵将完整的高斯图仿射变换至字符标注框区域。

3.根据权利要求1所述的一种面向任意方向和形状的文本检测方法，其特征在于：所述的颜色转换是随机的改变原始数据图像的亮度和饱和度。

4.根据权利要求1所述的一种面向任意方向和形状的文本检测方法，其特征在于：所述的随机裁剪是将原始数据图像的尺寸随机的扩展为原尺寸的1至3倍，然后随机选定扩展后的数据图像中一个文字区域，以该文字区域的左上角为左上角顶点在扩展后的数据图像中截取设定大小的区域。

5.根据权利要求4所述的一种面向任意方向和形状的文本检测方法，其特征在于：如果截取区域没有包含整个文字区域，则扩大截取区域，使截取区域包含整个文字区域，然后对扩大后的截取区域的长边缩小至设定的768像素，短边按照与...

【专利技术属性】
技术研发人员：严海，贾昌鑫，
申请(专利权)人：北京华宇信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人