当前位置: 首页 > 专利查询>河海大学专利>正文

一种自然场景曲线文本检测方法技术

技术编号:23605411 阅读:49 留言:0更新日期:2020-03-28 06:19
本发明专利技术公开了一种自然场景曲线文本检测方法,包括如下步骤:(1)获取用于训练场景曲线文本检测的多个图像数据集;(2)利用卷积神经网络CNN对步骤(1)中获得的图像数据集进行特征学习,使用维度分解区域提议网络DeRPN生成输入图像的文本提议;(3)使用细化网络对步骤(2)中的文本提议进行验证和细化,包括文本/非文本分类、边界框回归和任意形状文本区域表示;(4)对步骤(3)中搭建的网络进行监督训练得到检测器模型;(5)利用步骤(4)中的检测器模型对待检测的图片进行检测,输出多边形文本区域得到最终检测结果。本发明专利技术能够更好地紧密鲁棒的定位曲线文本,提高检测性能。

A method of natural scene curve text detection

【技术实现步骤摘要】
一种自然场景曲线文本检测方法
本专利技术涉及图像处理
,尤其是一种自然场景曲线文本检测方法。
技术介绍
文本是传递语义信息的最基本的媒介,它在日常生活中无处不在:路牌、商店招牌、产品包装、餐馆菜单等,这种自然环境中的文本被称为场景文本。自动检测和识别场景文本是非常有益的,可以应用于实时文本翻译、盲人援助、购物、机器人、智能汽车和教育。端到端文本识别系统通常包括两个步骤:文本检测和文本识别,在文本检测中,文本区域被检测并使用它们的边界框标记;在文本识别中,从检测到的文本区域中检索文本信息。文本检测是实现端到端文本识别的重要步骤,没有它就无法从场景图像中识别文本。因此,近年来场景文本检测备受关注。传统的OCR技术只能处理印刷文件或名片上的文本,而场景文本检测试图检测复杂场景中的各种文本。由于背景复杂、字体、大小、颜色、语言、光照条件、方向等的变化,使得场景文本检测成为一项非常具有挑战性的工作。在深度学习方法普及之前,使用手工设计的特征和传统的分类器,其性能较差。然而,近年来得益于深度学习技术的发展,检测性能有了很大的提高。与此同时,场本文档来自技高网...

【技术保护点】
1.一种自然场景曲线文本检测方法,其特征在于,包括如下步骤:/n(1)获取用于训练场景曲线文本检测的多个图像数据集;/n(2)利用卷积神经网络CNN对步骤(1)中获得的图像数据集进行特征学习,使用维度分解区域提议网络DeRPN生成输入图像的文本提议;/n(3)使用细化网络对步骤(2)中的文本提议进行验证和细化,包括文本/非文本分类、边界框回归和任意形状文本区域表示;/n(4)对步骤(3)中搭建的网络进行监督训练得到检测器模型;/n(5)利用步骤(4)中的检测器模型对待检测的图片进行检测,输出多边形文本区域得到最终检测结果。/n

【技术特征摘要】
1.一种自然场景曲线文本检测方法,其特征在于,包括如下步骤:
(1)获取用于训练场景曲线文本检测的多个图像数据集;
(2)利用卷积神经网络CNN对步骤(1)中获得的图像数据集进行特征学习,使用维度分解区域提议网络DeRPN生成输入图像的文本提议;
(3)使用细化网络对步骤(2)中的文本提议进行验证和细化,包括文本/非文本分类、边界框回归和任意形状文本区域表示;
(4)对步骤(3)中搭建的网络进行监督训练得到检测器模型;
(5)利用步骤(4)中的检测器模型对待检测的图片进行检测,输出多边形文本区域得到最终检测结果。


2.如权利要求1所述的自然场景曲线文本检测方法,其特征在于,步骤(1)中,所述图像数据集为已有的公共的场景曲线文本图像数据集,或者临时采集场景中的曲线文本图像数据集,所述图像数据集中包含有N张训练图片,每张训练图片中至少有一个曲线文本区域,并且有一个以矩形或者多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件,所述标注文件称为标签。


3.如权利要求1所述的自然场景曲线文本检测方法,其特征在于,步骤(2)中,从卷积神经网络CNN中提取特征(x)并输入到回归层和分类层,回归层由卷积层或全连接层实现,是预测参数化坐标(t)的线性运算,为了获得预测的边界框,根据anchorbox(B)对这些参数化坐标进行解码;分类层对预测值应用激活函数,以生成边界框的概率(PB);使用VGG16作为主干网络,将DeRPN附加到其conv5层,DeRPN通过维度分解机制,引入anchorstring作为对象宽度和高度的独立回归参考,同时预测独立的段(Sw(x,w),Sh(y,h))和相应的概率而不是完整的边界框,此过程的数学描述如下:









其中,Wr,br表示回归层的权重和偏差,Wc,bc表示分类层的权重和偏差,x,y,w,h是边界框的坐标,xa,ya,wa,ha是anchorstring的相应坐标,ψ表示用于解码坐标的反参数化函数,σ表示激活函数,tw,th表示预测宽和高的参数化坐标,Sw(x,w),Sh(y,h)表示预测宽和高的独立的段,表示对象宽度和高度的独立回归参考,表示相应的宽和高的概率;
由于检测结果需要二维边界框,需要合理地组合预测的分段以恢复边界框,组合过程数学描述如下:
B(x,y,w,h)=f(Sw(x,w),Sh(y,h))



其中,f表示组合预测段的一种规则或算法,g是一个函数,它评估组合边界框的概率,PB表示生成边界框的概率,B(x,y,w,h)表示组合成的边界框。


4.如权利要求1所述的自然场景曲线文本检测方法,其特征在于,步骤(3)中,利用文本的几何属性:文本区域、文本中心线和边界框偏移对步骤(2)中的文本边界框进行精确的形状表示,文本中心线是由文本边界框收缩而来,边界偏移是四个通道图,只在中心线特征图的正响应对应位置有值;在预测文本中心线上从左到右...

【专利技术属性】
技术研发人员:王敏蔡鑫鑫
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1