基于合成数据的文本检测方法及装置制造方法及图纸

技术编号:18115711 阅读:49 留言:0更新日期:2018-06-03 08:34
本发明专利技术实施例公开了一种基于合成数据的文本检测方法,包括:对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;利用文本检测的全卷积神经网络模型得到待检测图像的灰度图的概率图并进行阈值二值化,得到二值化概率图;对二值化概率图与待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在该除去非文本背景区域的图像中提取候选文本框;获取不同尺度下的除去非文本背景区域的待检测图的候选文本框,形成候选文本框集,并利用分类器对其进行过滤,得到最终的文本框;本发明专利技术实施例同时还公开了一种基于合成数据的文本检测装置。

【技术实现步骤摘要】
基于合成数据的文本检测方法及装置
本专利技术涉及图像检测领域,尤其涉及一种基于合成数据的文本检测方法及装置。
技术介绍
随着图像采集设备,如照相机、可拍照手机、掌上电脑等在人们日常生活中的广泛使用,基于图像内容的图像检测技术受到了越来越多的重视;在图像所包含的内容当中,文本信息由于更容易被人类和计算机理解,因而受到了极大的关注。对于场景图像中的文本检测,目前较为流行的方法是利用深度学习技术进行文本检测,主要包括基于区域的方法和基于像素的方法;该方法在利用全卷积神经网络得到文字的概率图之后,直接利用文字各尺度的概率图进行非极大值抑制,得到最终检测结果;这种方法没有充分利用原始图像的信息,其检测结果极易受到概率图中异常概率点的影响,从而产生较多偏差,检测结果不精确。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种基于合成数据的文本检测的方法及装置,以实现场景图像中文本的检测,提高检测的精度和准确度。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术提供一种基于合成数据的文本检测方法,所述方法包括:对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;获取在不同尺度下的所述除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框。上述方案中,在所述对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练之前,所述方法还包括:对GB2312标准中的每个一级常用汉字进行倾斜、旋转、透视、加噪声处理,得到所述单字图像数据集。上述方案中,所述对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型,包括:对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本和非文本分类模型;将所述文本和非文本分类模型的全连接层转化为卷积层,得到文本检测的全卷积神经网络模型。上述方案中,所述利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图,包括:将所述待检测图像进行灰度处理,得到所述待检测图像的灰度图;利用所述文本检测的全卷积神经网络模型对所述待检测图像的灰度图进行处理,得到所述待检测图像的灰度图的概率图;利用二阶线性插值将所述待检测图像的灰度图的概率图恢复到与所述待检测图像同等尺寸,并进行阈值二值化,得到二值化概率图。上述方案中,所述对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框,包括:对所述二值化概率图进行游程平滑,对游程平滑后的所述二值化概率图与所述待检测图像的灰度图进行图像“与”操作,过滤掉所述二值化概率图中的非文本背景区域,得到所述除去非文本背景区域的图像;对所述除去非文本背景区域的图像进行阈值化和水平游程平滑,将获得的连通区域的最小包围矩形作为候选文本框。上述方案中,所述利用分类器对所述候选文本框集进行过滤,得到最终的文本框,包括:利用Adaboost分类器对所述候选文本框集中的所有候选文本框的紧实度及长宽比特征进行过滤,去除不符合要求的候选文本框,得到最终的文本框。本专利技术提供一种基于合成数据的文本检测装置,所述装置包括:训练模块,用于对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;获取模块,用于利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;提取模块,用于对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;过滤模块,用于获取在不同尺度下的所述除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框。上述方案中,所述装置还包括:生成模块,用于对GB2372标准中的每个一级常用汉字进行倾斜、旋转、透视、加噪声处理,得到所述单字图像数据集。上述方案中,所述训练模块,具体用于对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本和非文本分类模型;将所述文本和非文本分类模型的全连接层转化为卷积层,得到文本检测的全卷积神经网络模型。上述方案中,所述获取模块,具体用于将所述待检测图像进行灰度处理,得到所述待检测图像的灰度图;利用所述文本检测的全卷积神经网络模型对所述待检测图像的灰度图进行处理,得到所述待检测图像的灰度图的概率图;利用二阶线性插值将所述待检测图像的灰度图的概率图恢复到与所述待检测图像同等尺寸,并进行阈值二值化,得到二值化概率图。上述方案中,所述提取模块,具体用于对所述二值化概率图进行游程平滑,对游程平滑后的所述二值化概率图与所述待检测图像的灰度图进行图像“与”操作,过滤掉所述二值化概率图中的非文本背景区域,得到所述除去非文本背景区域的图像;对所述除去非文本背景区域的图像进行阈值化和水平游程平滑,将获得的连通区域的最小包围矩形作为候选文本框。上述方案中,所述过滤模块,具体用于利用Adaboost分类器对所述候选文本框集中的所有候选文本框的紧实度及长宽比特征进行过滤,去除不符合要求的候选文本框,得到最终的文本框。本专利技术实施例所提供的基于合成数据的文本检测的方法及装置,通过对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;获取在不同尺度下的所述除去非文本背景区域的待检测图的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框;实现了对场景图像中文本的检测,提高了文本检测的精度和准确度。附图说明图1为本专利技术基于合成数据的文本检测方法实施例一的流程图;图2为本专利技术基于合成数据的文本检测方法实施例二的流程图;图3为本专利技术基于合成数据的文本检测方法实施例二的单字图像数据集示意图;图4为本专利技术基于合成数据的文本检测方法实施例二的获取待检测图像的灰度图的概率图的过程示意图;图5为本专利技术基于合成数据的文本检测方法实施例二的对二值化概率图与待检测图像的灰度图进行图像操作的示意图;图6为本专利技术基于合成数据的文本检测方法实施例二的检测结果示意图;图7为本专利技术基于合成数据的文本检测装置实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例本文档来自技高网...
基于合成数据的文本检测方法及装置

【技术保护点】
一种基于合成数据的文本检测方法,其特征在于,所述方法包括:对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;获取在不同尺度下的所述除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框。

【技术特征摘要】
1.一种基于合成数据的文本检测方法,其特征在于,所述方法包括:对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型;利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图;对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框;获取在不同尺度下的所述除去非文本背景区域的待检测图像的候选文本框,形成候选文本框集,并利用分类器对所述候选文本框集进行过滤,得到最终的文本框。2.根据权利要求1所述的方法,其特征在于,在所述对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练之前,所述方法还包括:对GB2312标准中的每个一级常用汉字进行倾斜、旋转、透视、加噪声处理,得到所述单字图像数据集。3.根据权利要求1所述的方法,其特征在于,所述对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本检测的全卷积神经网络模型,包括:对包含有单字图像数据集的正样本与包含有非文本图像数据集的负样本进行深度神经网络训练,得到文本和非文本分类模型;将所述文本和非文本分类模型的全连接层转化为卷积层,得到文本检测的全卷积神经网络模型。4.根据权利要求1所述的方法,其特征在于,所述利用所述文本检测的全卷积神经网络模型得到所述待检测图像的灰度图的概率图,并进行阈值二值化,得到二值化概率图,包括:将所述待检测图像进行灰度处理,得到所述待检测图像的灰度图;利用所述文本检测的全卷积神经网络模型对所述待检测图像的灰度图进行处理,得到所述待检测图像的灰度图的概率图;利用二阶线性插值将所述待检测图像的灰度图的概率图恢复到与所述待检测图像同等尺寸,并进行阈值二值化,得到二值化概率图。5.根据权利要求1所述的方法,其特征在于,所述对所述二值化概率图与所述待检测图像的灰度图进行图像操作,得到除去非文本背景区域的图像,并在所述除去非文本背景区域的图像中提取候选文本框,包括:对所述二值化概率图进行游程平滑,对游程平滑后的所述二值化概率图与所述待检测图像的灰度图进行图像“与”操作,过滤掉所述二值化概率图中的非文本背景区域,得到所述除去非文本背景区域的图像;对所述除去非文本背景区域的图像进行阈值化和水平游程平滑,将获得的连通区域的最小包围矩形作为候选文本框。6.根据权利要求1所述的方法,其特征在于,所述利用分...

【专利技术属性】
技术研发人员:杜安安程耀宋刘一汉许宝亮
申请(专利权)人:中移杭州信息技术有限公司中国移动通信集团公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1