当前位置: 首页 > 专利查询>南京大学专利>正文

一种自然场景中的任意形状文本检测方法技术

技术编号:24997298 阅读:23 留言:0更新日期:2020-07-24 17:59
本发明专利技术提供了一种自然场景中的任意形状文本检测方法,包括如下步骤:步骤1,对文本图片数据集中的训练图片进行预处理;步骤2,搭建分割网络,利用所述网络完成对训练图片的特征提取、分割预测,得到文本区域和文本中心区域的预测;步骤3,利用一种随着训练过程渐进衰减的权重来控制损失函数的计算,对网络进行监督训练得到检测器模型;步骤4,对待检测图片进行检测;步骤5,通过后处理算法得到文本中心核的预测图,过滤部分错误预测区域,然后直接扩张预测文本中心核得到最终检测结果。

【技术实现步骤摘要】
一种自然场景中的任意形状文本检测方法
本专利技术涉及深度学习
,尤其涉及一种自然场景中的任意形状文本检测方法。
技术介绍
近几年来,自然场景中的文本检测在视频理解,物流识别,自动驾驶等许多领域应用广泛。然而,由于前景的文本块与文本行在形状、颜色、字体、尺度和方向上的不同,且自然场景中背景复杂多变,自然场景下的文本检测依然有很大挑战。目前,在针对任意形状文本,例如弯曲文本的检测任务中,有一类主流的处理方式是基于语义分割的方法,因为像素级别的分割可以获取任意形状的文本实例的边缘信息。然而,以往基于语义分割的方法往往对阈值选择十分敏感,即针对同一个数据集,人工设定的阈值变化会导致检测精度产生较大变化。在实际应用中,人们无法获取待检测数据的标签数据,采用对阈值敏感的检测方法,只能采取一个经验阈值,往往会导致检测效果与模型可达到的最佳性能有较大差距。因此,降低场景文本检测模型对阈值选择的敏感程度是非常有必要的。换言之,需要提高检测算法分离前景与背景的准确程度。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种自然场景中的任意形状文本检测方法,给定一张场景图片,本专利技术将在该场景图片中检测出所有文本出现的位置并用边界框将所有文本实例包围起来,给出文本检测的结果。特别的,本专利技术对前景和背景的分类更精确,具体表现为对阈值选择不敏感且误检率低。该方法被简记为TIKD(ThresholdInsensitiveKernelDetector)。本专利技术方法包括如下步骤:步骤1,对文本图片数据集中的训练图片进行预处理;步骤2,搭建一个语义分割网络,利用语义分割网络完成对训练图片的特征提取、分割预测,得到文本区域和类似文本物体的中心区域的预测;步骤3,利用一种随着训练过程渐进衰减的权重来控制损失函数的计算,对语义分割网络进行监督训练得到检测器模型;步骤4,通过检测器模型对待检测图片进行检测;步骤5,计算得到文本中心核的预测图,过滤部分错误预测区域,然后直接扩张预测文本中心区域得到最终检测结果。本专利技术中,步骤1所述文本图片数据集为已有的公开的文本图片数据集,例如:ICDAR2019-MLT,ICDAR2015,MSRA-TD500,Total-Text,CTW1500等,或者为自行采集的场景文本图片数据集,所述文本图片数据集中通常包含有N张(一般为1000张以上)训练图片,每张训练图片中至少包含一个文本区域,并且有一个以四边形或多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件,标注文件中的信息被称为标注。本专利技术中,步骤1包括:对自然场景文本图片数据集中的训练图片进行如下数据增强:首先将训练图片按照某个比例放缩(一般比例取0.5),然后将训练图片概率随机水平翻转且在一定角度范围内(一般取正负10度)进行随机旋转,最后从训练图片上随机裁剪出固定大小(一般取640像素×640像素)的样例,作为最终的训练图片,训练图片中的文本区域被称为文本实例,每个文本实例的人工标注框被称为其对应的标注,约定模糊不清的文本被标注为‘###’。本专利技术中,步骤2中,所述语义分割网络包括一个特征金字塔网络模块,一个特征融合模块和两个预测模块。本专利技术中,步骤2包括以下步骤:步骤2-1,所述特征金字塔网络模块的结构为:以50层的深度残差网络(参考文献:Identitymappingsindeepresidualnetworks.)作为特征提取器,最后三层卷积中的卷积替换为可变形卷积核(参考文献:Deformableconvnetsv2:Moredeformable,betterresults.),后接一个特征金字塔结构(参考文献:Featurepyramidnetworksforobjectdetection.)构成。对步骤1得到的训练图片进行特征提取和不同尺度特征图的上采样与融合,得到特征图(P2,P3,P4,P5),P2,P3,P4,P5分别代表特征金字塔网络模块中不同卷积层产生的融合后的卷积特征图;步骤2-2,利用特征融合模块将P2,P3,P4,P5进行融合,融合后的特种图F定义如下:F=C(P2,P3,P4,P5)=Neck(P2)||Up×2(Neck(P3))||Up×4(Neck(P4))||Up×8(Neck(P5))其中,符号||表示连接;Neck()表示将特征图用降维模块降到128维,降维模块为Conv(1,1)-BN-ReLU层,其中Conv(1,1)表示卷积核为1×1,步长为1的卷积层,BN表示批量归一化层,ReLU为线性整流函数;Up×n()表示对特征图进行n倍的上采样,采样方式为最近邻采样(nearest)。步骤2-3,特征图F进入两个预测模块Pred。两个Pred模块的结构相同但参数不共享。预测模块的结构为:BRConv(3,1)、BRTransposeConv(3,2)×2、Sigmoid。其中,BRConv(3,1)表示卷积核为3×3,步长为1的卷积层,BN批量归一化层和ReLU线性整流层;BRTransposeConv(3,2)×2表示两个连续的转置卷积组,其中每个转置卷积组由一个卷积核为3×3,步长为2的转置卷积,BN批量归一化层和ReLU线性整流函数组成。每个Pred模块输出一个与输入图大小相同的特征图,第一个预测模块的输出记为Tpred,表示文本区域的预测,第二个预测模块的输出记为Kpred,表示类似文本物体的中心区域的预测。本专利技术中,步骤3包括如下步骤:步骤3-1,根据训练图片中的文本实例对应的标签,对每张图片生成两个预测模块所需的两张标签,对每张图片生成监督标签的步骤如下:步骤3-1-1,每个文本实例所对应标注的每个多边形pi被转换为一个二进制掩码,得到的与待训练图片大小相同的掩码图记为T;步骤3-1-2,将每个pi利用Vatticlipping算法(参考文献:Agenericsolutiontopolygonclipping.)收缩di个像素点得到收缩后的多边形qi。每个收缩后的多边形qi被转换为一个二进制掩码,得到的与待训练图片大小相同的掩码图记为K,di的计算公式为:其中Area()为计算多边形面积的函数,Peri()为计算多边形周长的函数,r表示收缩的比例;步骤3-1-3,生成与T对应的边缘权重系数图ET:对T中每个文本实例的二进制掩码pti,利用Vatticlipping算法先收缩dti个像素点,得到的多边形记为ptsi,然后再扩张dti个像素点,得到的多边形记为ptdi,ptsi和ptdi之间的区域被记为gapti,gapti被视为pti的边缘区域;将边缘权重系数图ET初始化为一个与T同样大小的矩阵,全部填充为0,然后将gapti对应的区域填充为-1;dti的计算公式为:其中r表示收缩的比例,maxt为设置的最大文本区域边界宽度;步骤3-1-4,生成与K对应的边缘权重系数图EK:对K中每个文本本文档来自技高网...

【技术保护点】
1.一种自然场景中的任意形状文本检测方法,其特征在于,包括如下步骤:/n步骤1,对文本图片数据集中的训练图片进行预处理;/n步骤2,搭建一个语义分割网络,利用所述语义分割网络完成对训练图片的特征提取、分割预测,得到文本区域和类似文本物体的中心区域的预测;/n步骤3,对语义分割网络进行监督训练得到检测器模型;/n步骤4,通过检测器模型对待检测图片进行检测;/n步骤5,计算得到文本中心核的预测图,过滤错误预测区域,得到最终检测结果。/n

【技术特征摘要】
1.一种自然场景中的任意形状文本检测方法,其特征在于,包括如下步骤:
步骤1,对文本图片数据集中的训练图片进行预处理;
步骤2,搭建一个语义分割网络,利用所述语义分割网络完成对训练图片的特征提取、分割预测,得到文本区域和类似文本物体的中心区域的预测;
步骤3,对语义分割网络进行监督训练得到检测器模型;
步骤4,通过检测器模型对待检测图片进行检测;
步骤5,计算得到文本中心核的预测图,过滤错误预测区域,得到最终检测结果。


2.根据权利要求1所述的方法,其特征在于,步骤1包括:对文本图片数据集中的训练图片进行如下数据增强:首先将训练图片按照比例放缩,然后将训练图片概率随机水平翻转且在一定角度范围内进行随机旋转,最后从训练图片上随机裁剪出固定大小的样例,作为最终的训练图片,训练图片中的文本区域被称为文本实例,每个文本实例的人工标注框被称为其对应的标注,约定模糊不清的文本被标注为###。


3.根据权利要求2所述的方法,其特征在于,步骤2包括:
步骤2-1,搭建一个语义分割网络,所述语义分割网络包括一个特征金字塔网络模块,一个特征融合模块和两个预测模块;
所述特征金字塔网络模块的结构为:以50层的深度残差网络作为特征提取器,最后三层卷积中的卷积核替换为可变形卷积核,后接一个特征金字塔结构;利用特征金字塔网络模块对步骤1得到的训练图片进行特征提取和不同尺度特征图的上采样与融合,得到特征图(P2,P3,P4,P5),P2,P3,P4,P5分别代表特征金字塔网络模块中不同卷积层产生的融合后的卷积特征图;
步骤2-2,利用特征融合模块将P2,P3,P4,P5进行融合,融合后的特种图F定义如下:
F=C(P2,P3,P4,P5)=Neck(P2)||Up×2(Neck(P3)||Up×4(Neck(P4)||Up×8(Neck(P5)
其中,符号||表示连接;Neck()表示将特征图用降维模块降到128维,降维模块为Conv(1,1)-BN-ReLU层,其中Conv(1,1)表示卷积核为1×1,步长为1的卷积层,BN表示批量归一化层,ReLU为线性整流函数;Up×n()表示对特征图进行n倍的上采样,采样方式为最近邻采样;
步骤2-3,特种图F进入两个预测模块,两个预测模块的结构相同但参数不共享,预测模块的结构为BRConv(3,1)、BRTransposeConv(3,2)×2、Sigmoid,其中,BRConv(3,1)表示卷积核为3×3,步长为1的卷积层,BN批量归一化层和ReLU线性整流层;BRTransposeConv(3,2)×2表示两个连续的转置卷积组,其中每个转置卷积组由一个卷积核为3×3,步长为2的转置卷积,BN批量归一化层和ReLU线性整流函数组成;每个预测模块输出一个与输入图大小相同的特征图,第一个预测模块的输出记为Tpred,表示文本区域的预测,第二个预测模块的输出记为Kpred,表示类似文本物体的中心区域的预测。


4.根据权利要求3所述的方法,其特征在于,步骤3包括:
步骤3-1,根据训练图片中的文本实例对应的标签,对每张图片生成两个预测模块所需的两张标签;
步骤3-2,设置语义分割网络的训练损失函数L为:
L=LT+λLK,
其中,LT和LK分别表示完整的文本实例的损失和收缩后的文本中心区域的损失,参数λ用来平衡LT和LK,参数λ的取值范围为[0,1],采用交叉熵与dice系数的组合方式来计算损失函数L,并且引入随着训练过程逐渐衰减的权重系数,权重系数记为DLW;
步骤3-3:利用步骤1中预处理过的图片以及步骤3-1中计算得到的标签和步骤3-2中设置的损失函数L,使用随机梯度下降法对语义分割网络进行监督训练,得到训练好的检测器模型。


5.根据权利要求4所述的方法,其特征在于,步骤3-1包括如下步骤:
步骤3-1-1,每个文本实例所对应标注的每个多边形pi被转换为一个二进制掩码,得到的与待训练图片大小相同的掩码图记为T;
步骤3-1-2,将每个多边形pi利用Vatticlipping算法收缩di个像素点得到收缩后的多边形qi,每个收缩后的多边形qi被转换为一个二进制掩码,得到的与待训练图片大小相同的掩码图记为K,di的计算公式为:



其中Area()为计算多边形面积的函数,Peri()为计算多边形周长的函数,r表示收缩的比例;
步骤3-1-3,生成与T对应的边缘权重系数图ET:对T中每个文本实例的二进制掩码pti,利用Vatticlipping算法先收缩dti个像素点,得到的多边形记为ptsi,然后再扩张dti个像素点,得到的多边形记为ptdi,ptsi和ptdi之间的区域被记为gapti,gapti被视为pti的边缘区域;将边缘权重系数图ET初始化为一个与T同样大小的矩阵,全部填充为0,然后将gapti对应的区域填充为-1;dti的计算公式为:

【专利技术属性】
技术研发人员:杨育彬钱锡俊
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1