【技术实现步骤摘要】
一种基于图像分割的任意形状场景文本探测方法
本专利技术涉及图像目标探测
,尤其是一种基于图像分割的任意形状场景文本探测方法。
技术介绍
在互联网世界中,图片是传递信息的重要媒介,特别是电子商务、社交和搜索等领域,每天都有数以亿兆级别的图像在传播,图片文字识别(OCR)在商业领域有重要的应用价值,是数据信息化和线上线下打通的基础,也是学术界的研究热点。与文档文字识别不同,自然场景中的文字识别----图像背景复杂、分辨率低、字体多样、分布随意等,传统光学字符识别在此类情况下无法应用。为了更好的进行自然场景文本识别,就需要准确的对场景文本进行探测,场景文本探测作为场景文本识别的前置任务,需要在复杂的自然场景下对文本区域进行精确的定位。目前,场景文本探测常用的手段是将目标探测的方法迁移到文本探测,相对于目标探测,自然场景中的文本具有大小变化大,长宽比变化大,具有变化较大的方向和多样的形状。为了解决场景文本探测问题,通常要将目标探测方法中常用的anchor进行改造。常用的方法是改变预设的大小,长宽比以及加入方向信息。现有技术探测出的文本框大多数都是四边形,对于具有曲折 ...
【技术保护点】
1.一种基于图像分割的任意形状场景文本探测方法,其特征在于采用深度神经网络模型处理待测场景图片的方法,将得到的概率图与边框图结合得到收缩掩码图,在收缩图上应用算法得到实例级别分割,得到候选文本区域,并对候选文本区域进行得分过滤,选取出最后的文本探测结果,其具体过程包括以下步骤: a步骤:将待探测的场景图片利用深度卷积神经网络模型,分别得到文本边框图、文本区域概率图和文本区域得分图; b步骤:上述文本边框图和文本区域概率图经阈值及二值化算法处理,将图中大于阈值的像素点作为文本区域,去除与边框图重合部分,得到收缩文本掩码图; c步骤:对上述收缩文本掩码图和文本区域概率图采用数学 ...
【技术特征摘要】
1.一种基于图像分割的任意形状场景文本探测方法,其特征在于采用深度神经网络模型处理待测场景图片的方法,将得到的概率图与边框图结合得到收缩掩码图,在收缩图上应用算法得到实例级别分割,得到候选文本区域,并对候选文本区域进行得分过滤,选取出最后的文本探测结果,其具体过程包括以下步骤:a步骤:将待探测的场景图片利用深度卷积神经网络模型,分别得到文本边框图、文本区域概率图和文本区域得分图;b步骤:上述文本边框图和文本区域概率图经阈值...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。