一种基于图像分割的任意形状场景文本探测方法技术

技术编号:22186719 阅读:38 留言:0更新日期:2019-09-25 03:48
本发明专利技术公开了一种基于图像分割的任意形状场景文本探测方法,其特点是采用深度神经网络模型处理待测场景图片的方法,将得到的概率图和边框图结合得到收缩掩码图,在收缩图上应用算法得到实例级别分割,在得到候选文本区域进行过滤,得到文本探测结果。本发明专利技术与现有技术相比具有简单、易行,能够有效的对任意形状的场景文本进行探测,且不会引入大量无关背景,本文的数据主要通过深度神经网络得到,其余的处理步骤主要使用简单的数字图像处理方法和数学工具,且容易通过OpenCV实现,得到高精度的结果。

A Text Detection Method for Arbitrary Shape Scene Based on Image Segmentation

【技术实现步骤摘要】
一种基于图像分割的任意形状场景文本探测方法
本专利技术涉及图像目标探测
,尤其是一种基于图像分割的任意形状场景文本探测方法。
技术介绍
在互联网世界中,图片是传递信息的重要媒介,特别是电子商务、社交和搜索等领域,每天都有数以亿兆级别的图像在传播,图片文字识别(OCR)在商业领域有重要的应用价值,是数据信息化和线上线下打通的基础,也是学术界的研究热点。与文档文字识别不同,自然场景中的文字识别----图像背景复杂、分辨率低、字体多样、分布随意等,传统光学字符识别在此类情况下无法应用。为了更好的进行自然场景文本识别,就需要准确的对场景文本进行探测,场景文本探测作为场景文本识别的前置任务,需要在复杂的自然场景下对文本区域进行精确的定位。目前,场景文本探测常用的手段是将目标探测的方法迁移到文本探测,相对于目标探测,自然场景中的文本具有大小变化大,长宽比变化大,具有变化较大的方向和多样的形状。为了解决场景文本探测问题,通常要将目标探测方法中常用的anchor进行改造。常用的方法是改变预设的大小,长宽比以及加入方向信息。现有技术探测出的文本框大多数都是四边形,对于具有曲折形状的文本效果不佳,本文档来自技高网...

【技术保护点】
1.一种基于图像分割的任意形状场景文本探测方法,其特征在于采用深度神经网络模型处理待测场景图片的方法,将得到的概率图与边框图结合得到收缩掩码图,在收缩图上应用算法得到实例级别分割,得到候选文本区域,并对候选文本区域进行得分过滤,选取出最后的文本探测结果,其具体过程包括以下步骤: a步骤:将待探测的场景图片利用深度卷积神经网络模型,分别得到文本边框图、文本区域概率图和文本区域得分图; b步骤:上述文本边框图和文本区域概率图经阈值及二值化算法处理,将图中大于阈值的像素点作为文本区域,去除与边框图重合部分,得到收缩文本掩码图; c步骤:对上述收缩文本掩码图和文本区域概率图采用数学形态学的销蚀滤噪处理...

【技术特征摘要】
1.一种基于图像分割的任意形状场景文本探测方法,其特征在于采用深度神经网络模型处理待测场景图片的方法,将得到的概率图与边框图结合得到收缩掩码图,在收缩图上应用算法得到实例级别分割,得到候选文本区域,并对候选文本区域进行得分过滤,选取出最后的文本探测结果,其具体过程包括以下步骤:a步骤:将待探测的场景图片利用深度卷积神经网络模型,分别得到文本边框图、文本区域概率图和文本区域得分图;b步骤:上述文本边框图和文本区域概率图经阈值...

【专利技术属性】
技术研发人员:杨静胡子凌
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1