一种基于多尺度旋转锚点机制的多方向图像文本检测方法技术

技术编号：21035670 阅读：18 留言：0更新日期：2019-05-04 05:55

本发明专利技术公开了一种基于多尺度旋转锚点机制的多方向图像文本检测方法，属于图像文本检测技术领域，利用卷积神经网络提取图像特征，获取一系列的特征图像，设计多尺度旋转的锚点，在每一幅特征图像上进行扫描，获取任意方向感兴趣文本区域，再将感兴趣文本区域输入到双向的长短期记忆网络当中，获取文本块的上下文信息，再输入到全连接层当中，输出文本块的分数和最小矩形包围框的预测，最后将文本块组合成文本行，利用非极大值抑制方法去掉重复的文本框，获得最终的文本行检测结果。本发明专利技术检测方法简单、可操作性较强，可以检测图像中多方向排列的文本，具有广泛的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多尺度旋转锚点机制的多方向图像文本检测方法
本专利技术属于图像文本检测
，具体涉及一种基于多尺度旋转锚点机制的多方向图像文本检测方法。
技术介绍
图像中的目标检测一直是计算机视觉的重要研究领域，而图像文本检测属于图像目标检测中的一个子项目。图像中的文字包含有丰富而准确的高层语义信息，有助于人们方便而快捷地理解图像中的内容，那么我们首先需要判断图像中是否存在文本内容，并且提取出图像中的文本内容。图像文本检测虽然经历多年发展，但仍然面临许多挑战。传统的文本检测方法光学字符识别(OpticalCharacterRecognition，OCR)，指对输入扫描文档图像进行分析处理，识别出图像中文字信息，但是随着时代的进步，自然场景下的文本检测需求越来越大，因为自然场景下的图像与扫描文档相比要复杂，其文本内容展现形式非常丰富，譬如多种语言文本混合排列的形式；字符有不同的大小、字体、颜色、弯曲度等；文本行有横向、纵向、弯曲等式样；图像中的文字区域还可能会产生遮挡、变形(透视、仿射变换)、残缺、模糊等现象。另外自然场景图像的背景也较为复杂，譬如文字可以出现在平面、曲面或折皱面上；文字区域附近有复杂的纹理，或者非文字区域有近似文字的纹理，譬如沙地、草丛、栅栏、砖墙等。近年来，针对水平方向的自然场景文本检测方法已有较大发展，随着研究的进步，任意方向的自然场景文本检测受到了越来越多研究学者的关注，由于文本的方向不确定，因此会给文本检测和识别带来更大的挑战。传统的文本检测算法是基于形态学和机器学习的方法，依据的是文本的固有属性特征，如笔划宽度、颜色、占空比等，算法对...

【技术保护点】
1.一种基于多尺度旋转锚点机制的多方向图像文本检测方法，其特征在于，包括以下步骤：S1.输入彩色自然场景图像，用卷积核扫描图像，获得一系列特征图；S2.用设计好的多尺度锚点扫描特征图，获得一系列感兴趣文本区域；S3.将感兴趣文本区域输入到双向长短期记忆网络之中，获得感兴趣文本区域的上下文信息；S4.将感兴趣文本区域的上下文信息输入到一个全连接层网络当中，输出最终文本块区域的得分，文本块最小外包矩形的坐标、宽、高、排列方向等信息；S5.利用图像数据集当中的训练集，对深度学习模型进行训练；S6.模型训练好后，在测试集上进行模型的测试，重复步骤S1至步骤S4，得到测试图像的候选文本块，将候选文本块按预定规则组合成文本行；S7.利用非极大值抑制方法去掉重合的文本行，保留得分最高的文本行，得到最终的测试结果。

【技术特征摘要】
1.一种基于多尺度旋转锚点机制的多方向图像文本检测方法，其特征在于，包括以下步骤：S1.输入彩色自然场景图像，用卷积核扫描图像，获得一系列特征图；S2.用设计好的多尺度锚点扫描特征图，获得一系列感兴趣文本区域；S3.将感兴趣文本区域输入到双向长短期记忆网络之中，获得感兴趣文本区域的上下文信息；S4.将感兴趣文本区域的上下文信息输入到一个全连接层网络当中，输出最终文本块区域的得分，文本块最小外包矩形的坐标、宽、高、排列方向等信息；S5.利用图像数据集当中的训练集，对深度学习模型进行训练；S6.模型训练好后，在测试集上进行模型的测试，重复步骤S1至步骤S4，得到测试图像的候选文本块，将候选文本块按预定规则组合成文本行；S7.利用非极大值抑制方法去掉重合的文本行，保留得分最高的文本行，得到最终的测试结果。2.根据权利要求1所述基于多尺度旋转锚点机制的多方向图像文本检测方法，其特征在于，所述步骤S5中，对深度学习模型进行训练，采用的损失...

【专利技术属性】
技术研发人员：邹北骥，杨文君，朱承璋，刘宁，赵杰岩，许杏，
申请(专利权)人：中南大学，深圳火眼智能有限公司，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人