基于边距约束的任意形状的场景文本检测方法技术

技术编号:25638201 阅读:33 留言:0更新日期:2020-09-15 21:30
本发明专利技术公开了一种基于边距约束的任意形状的场景文本检测方法,该方法通过深度网络提取场景图片中的特征,利用特征信息进行处理生成文本实例图来完成文本检测。同时充分利用文本实例间存在的边距约束,利用生成边距作为整个网络的一个辅助手段来修正文本实例图,产生更精确的检测结果。本发明专利技术对给定的的自然场景图片进行文本检测,实现高精度的输出对应的文本区域的坐标位置。

【技术实现步骤摘要】
基于边距约束的任意形状的场景文本检测方法
本专利技术属于人工智能领域中文本检测的方法,涉及计算机视觉和机器学习
,尤其涉及一种基于边距约束的任意形状的场景文本检测方法。
技术介绍
在互联网世界中,图片是传递信息的重要媒介。特别是电子商务,社交,搜索等领域,每天都有数以亿兆级别的图像在传播。自然场景图片中的文本是一个充满挑战的热门任务,与文档文字识别不同,自然场景中的文字识别存在图像背景复杂、分辨率低、字体多样、形状各异等问题,传统光学字符识别在此类情况下无法应用。为了更好的进行自然场景文本识别,就需要对场景文本实现更加准确的检测。通常OCR中,文本检测都是由目标检测继承而来,目标检测大多都是基于先验框的(anchorbase),anchor-base模式在目标检测衍生到OCR领域就有很多缺陷,比如:倾斜(或扭曲)文本检测不准、过长文本检测不全、过短文本容易遗漏、距离较近的无法分开等缺点。渐进式扩展网络横空出世,以另一种思路解决了这些问题。整个渐进式扩大网络过程中,对于生成的不同将每个文本实例分配给多个预测的分割区域,这些分割区域表本文档来自技高网...

【技术保护点】
1.一种基于边距约束的任意形状的场景文本检测方法,其特征在于,该方法包括以下具体步骤:/n步骤1:输入场景文本图像,通过深度卷积神经网络得到待检测文本图像的深度特征信息;/n步骤2:对步骤1得到的深度特征信息通过全卷积网络进行处理得到数个大小不同分割结果,即数个大小不同的文本实例图;/n步骤3:对步骤2所述的数个大小不同的文本实例图进行残差处理,得到文本实例之间的边距图,同时利用边距图来修正文本实例图;/n步骤4:对步骤3修正后的文本实例图进行扩张文本实例区域算法处理后,调用OpenCV轮廓检测输出对应的文本区域的位置坐标,得到文本检测结果。/n

【技术特征摘要】
1.一种基于边距约束的任意形状的场景文本检测方法,其特征在于,该方法包括以下具体步骤:
步骤1:输入场景文本图像,通过深度卷积神经网络得到待检测文本图像的深度特征信息;
步骤2:对步骤1得到的深度特征信息通过全卷积网络进行处理得到数个大小不同分割结果,即数个大小不同的文本实例图;
步骤3:对步骤2所述的数个大小不同的文本实例图进行残差处理,得到文本实例之间的边距图,同时利用边距图来修正文本实...

【专利技术属性】
技术研发人员:马天龙李鑫
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1