当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于随机形态边缘几何建模的深度场景文本检测方法技术

技术编号:26343438 阅读:49 留言:0更新日期:2020-11-13 20:45
本发明专利技术公开了一种基于随机形态边缘几何建模的深度场景文本检测方法,其步骤为:S1、获取用于训练场景文本检测的图像数据集;S2、在极坐标系下对文本边缘进行采样和归一化,利用切比雪夫多项式拟合获得几何编码信息真值;S3、利用全卷积特征提取网络对图像进行特征学习与全局特征融合;S4、对候选文本的特征向量进行分类,预测实例级别的几何编码,在全监督下联合优化模型;S5、建立端到端联合学习框架预测几何编码信息,并利用预测出的编码信息解码出文本边缘的精确位置和形状;S6、对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果。本发明专利技术能对场景文本进行实例级别的边缘参数化表达和有效的参数学习,从而使模型更具准确性和鲁棒性。

A method of text detection in depth scene based on geometric modeling of random morphological edge

【技术实现步骤摘要】
一种基于随机形态边缘几何建模的深度场景文本检测方法
本专利技术属于计算机视觉领域,特别地涉及一种基于随机形态边缘几何建模的深度场景文本检测方法。
技术介绍
场景文本检测被定义为如下问题:在自然场景图像中发现多方向、多尺度、多语种、弯曲或不规则形态的文本区域位置。近年来,在计算机视觉任务如场景理解、图像检索等领域中得到了广泛应用。该任务主要有两个关键点:第一是如何用标准化的表征很好地建模多方向、多尺度、弯曲形状或不规则形状的文本目标边缘从而能够在统一的CNN框架中进行学习;第二是如何在网络中有效地学习这个标准化的表征从而能够准确输出检测结果。针对第一点,本专利技术认为随机形态场景文本的边缘建模关键在于准确地建模其空间几何特性,利用极坐标系下的边缘采样及切比雪夫多项式拟合来编码其空间结构,以产生准确、完整的边缘表达;针对第二点,本专利技术认为利用特征金字塔网络结构和全局融合特征图在不同尺度上进行多尺度预测,并且通过中心化训练策略提升训练效果,针对抽象化的编码信息,设计视觉内容相关的可导损失函数来进行有效学习。由于统计建模的有效性,目前基于学本文档来自技高网...

【技术保护点】
1.一种基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,包括以下步骤:/nS1、获取用于训练场景文本检测的多组图像数据集,并定义算法目标;/nS2、在极坐标系下对文本边缘进行采样和归一化,并利用切比雪夫多项式拟合获得几何编码信息真值;/nS3、利用全卷积特征提取网络对图像进行特征学习与全局特征融合;/nS4、对候选文本的特征向量进行分类,同时预测实例级别的几何编码,在全监督下联合优化模型;/nS5、使用由S1~S4建立的端到端联合学习框架预测几何编码信息,并利用预测出的编码信息解码出文本边缘的精确位置和形状;/nS6、对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果。/n

【技术特征摘要】
1.一种基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,包括以下步骤:
S1、获取用于训练场景文本检测的多组图像数据集,并定义算法目标;
S2、在极坐标系下对文本边缘进行采样和归一化,并利用切比雪夫多项式拟合获得几何编码信息真值;
S3、利用全卷积特征提取网络对图像进行特征学习与全局特征融合;
S4、对候选文本的特征向量进行分类,同时预测实例级别的几何编码,在全监督下联合优化模型;
S5、使用由S1~S4建立的端到端联合学习框架预测几何编码信息,并利用预测出的编码信息解码出文本边缘的精确位置和形状;
S6、对S5输出的多边形集合进行非极大值抑制得到最终文本检测结果。


2.如权利要求1所述的基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,步骤S1中,对于所述的用于场景文本检测的多个图像数据集中的一幅图像I,定义算法目标为:检测图像内的文本区域其中di为第i个文本区域多边形,K为I中的文本样本数量。


3.如权利要求2所述的基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,步骤S2中,在极坐标系下对文本边缘进行采样和归一化,并利用切比雪夫多项式拟合获得几何编码信息真值,具体包括:
S21、在每个文本样本的中心点(x,y)处建立极坐标系,从极点出以2π/N为间隔向-π到π的角度空间发射N条与文本边缘相交的射线,取每条射线与文本边缘的最后一个交点的极坐标形成半径向量r=[r1,r2,…,rN]与角度向量θ=[θθ,θ2,…,θN],其中ri和θi分别为第i条射线与文本边缘的交点的半径和角度;
S22、将r和θ分别用最大相交半径s和π归一化后,利用切比雪夫多项式进行函数曲线拟合,拟合多项式表达式为:



其中:θ为角度自变量,Tk是第一类切比雪夫多项式,K度拟合参数c=[c0,c1,…,cK]定义为文本目标的形状向量;通过最小二乘法求解形状向量:



其中:c′=[c′0,c′1,…,c′K]表示使最小的K度拟合参数;
S23、以K度拟合参数c、半径归一化参数s及中心点坐标(x,y)构成文本目标的几何编码信息ge=[c,s,x,y]。


4.如权利要求3所述的基于随机形态边缘几何建模的深度场景文本检测方法,其特征在于,步骤S3中,利用全卷积特征提取网络对图像进行特征学习与全局特征融合具体包括:
S31、利用特征金字塔网络提取每张图像在不同尺度上的深度特征;
S32、在每个尺度的深度特征图上利用全局融合模块从上到下、从下到上、从左到右、从右到左四个方向上进行特征传播,再经过一层卷积得到融合的全局特征图。


5.如权利要求4所述的基于随机形态边缘几何建模的深度场景文本检测方法...

【专利技术属性】
技术研发人员:李玺王芳芳
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1