The invention discloses a scene text detection method based on stroke width transformation and convolution neural network, which relates to the field of scene text detection, including the following steps: preparing training data sets, training text binary classifier based on Bootstrap strategy by convolution neural network, obtaining candidate text regions from images by using maximum stable extremum region algorithm, and using the text dichotomy described above. The classifier classifies the candidate text areas. In the candidate text areas, candidate characters are obtained based on stroke width transformation algorithm and filtered through geometric constraints. The beneficial effects of the invention are as follows: the training based on Bootstrap strategy enriches the quantity and quality of sample images; improves the detection performance by using stroke width transform algorithm based on the determined candidate text region, and determines the detection level as character level; and the region-based algorithm and a large number of Chinese training samples make the method detect Chinese text effectively.
【技术实现步骤摘要】
基于笔画宽度变换与卷积神经网络的场景文本检测方法
本专利技术涉及场景文本检测领域,尤其是指一种基于笔画宽度变换与卷积神经网络的场景文本检测方法。
技术介绍
在无人驾驶技术中,通过感知技术来进行三维环境建模是一项重要的工作。在真实道路场景中存在着许多相关的建模数据,如交通标志牌、车牌、路牌、广告牌中的文本信息。而自然场景图像中的文本检测与识别可用于自动提取其中的文本信息,是计算机视觉中的重要研究方向之一。近年来,研究学者们的研究已经取得了一定的突破,并且搭建了一系列评估数据库。然而,由于图像场景多变、文本多样等因素,在场景图像中进行文本检测与识别仍然存在诸多挑战。在过去几十年中,许多用于文档文本提取与识别的方法以及光学识别系统已经得到充分开发。Burns等人(T.J.Burns,J.J.Corso.RobustUnsupervisedSegmentationofDegradedDocumentImageswithTopicModels[C].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognitio ...
【技术保护点】
1.基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于,包括以下步骤:A. 准备训练数据集,通过卷积神经网络基于Bootstrap策略训练文本二分类器;B. 利用最大稳定极值区域算法从图像中获得候选文本区域;C. 利用所述文本二分类器对所述候选文本区域进行分类;D. 在所述候选文本区域中,基于笔画宽度变换算法获得候选字符,通过几何约束过滤候选字符,去除误报;E. 通过几何关系、位置关系将步骤D中所得候选字符组合成候选文本行。
【技术特征摘要】
1.基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于,包括以下步骤:A.准备训练数据集,通过卷积神经网络基于Bootstrap策略训练文本二分类器;B.利用最大稳定极值区域算法从图像中获得候选文本区域;C.利用所述文本二分类器对所述候选文本区域进行分类;D.在所述候选文本区域中,基于笔画宽度变换算法获得候选字符,通过几何约束过滤候选字符,去除误报;E.通过几何关系、位置关系将步骤D中所得候选字符组合成候选文本行。2.根据权利要求1所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于:所述步骤A具体包括以下子步骤:A1.获得的训练数据集包括:包含文本图像的正样本图像集以及不包含文本图像的负样本图像集;所有正样本图像集和负样本图像集中的样本均为48×48像素的裁剪图像;A2.在训练过程中,将完成初步训练的文本二分类器转化为全卷积模型;通过该全卷积模型进行文本检测,将获得的误检及漏检文本区域加入到训练数据集中,来获得更多样本图像;将全部样本图像输入到原有网络中重新训练文本二分类器,直至文本二分类器在文本数据集上的精确度达到稳定值且不再提升,即基于Bootstrap策略的训练方式。3.根据权利要求1所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于:所述步骤B具体包括以下子步骤:B1.预处理图像,即将原图转换为灰度图;B2.提取灰度图的最大稳定极值区域;B3.对获得的最大稳定极值区域进行连通域分析,过滤一些明显不包含文本的区域,然后对过滤后的图像区域进行闭运算,获得候选文本区域。4.根据权利要求1所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于:所述步骤C具体包括以下子步骤:C1.将步骤B中获得的候选文本区域大小调整为48×48像素;如果候选文本区域的宽度大于其高度,那么直接将候选文本区域大小调整为48×48像素;如果候选文本区域的高度大于其宽度,则提取跟其具有相同中心且边长等于其高度的正方形区域,并将正方形区域大小调整为48×48像素;C2.通过所述文本二分类器获得二分类结果,即...
【专利技术属性】
技术研发人员:肖苹苹,柯志达,林春敏,彭振文,苏亮,陈卫强,周方明,
申请(专利权)人:厦门金龙联合汽车工业有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。