当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于多尺度旋转锚点机制的多方向图像文本检测方法技术

技术编号:21035670 阅读:18 留言:0更新日期:2019-05-04 05:55
本发明专利技术公开了一种基于多尺度旋转锚点机制的多方向图像文本检测方法,属于图像文本检测技术领域,利用卷积神经网络提取图像特征,获取一系列的特征图像,设计多尺度旋转的锚点,在每一幅特征图像上进行扫描,获取任意方向感兴趣文本区域,再将感兴趣文本区域输入到双向的长短期记忆网络当中,获取文本块的上下文信息,再输入到全连接层当中,输出文本块的分数和最小矩形包围框的预测,最后将文本块组合成文本行,利用非极大值抑制方法去掉重复的文本框,获得最终的文本行检测结果。本发明专利技术检测方法简单、可操作性较强,可以检测图像中多方向排列的文本,具有广泛的应用前景。

【技术实现步骤摘要】
一种基于多尺度旋转锚点机制的多方向图像文本检测方法
本专利技术属于图像文本检测
,具体涉及一种基于多尺度旋转锚点机制的多方向图像文本检测方法。
技术介绍
图像中的目标检测一直是计算机视觉的重要研究领域,而图像文本检测属于图像目标检测中的一个子项目。图像中的文字包含有丰富而准确的高层语义信息,有助于人们方便而快捷地理解图像中的内容,那么我们首先需要判断图像中是否存在文本内容,并且提取出图像中的文本内容。图像文本检测虽然经历多年发展,但仍然面临许多挑战。传统的文本检测方法光学字符识别(OpticalCharacterRecognition,OCR),指对输入扫描文档图像进行分析处理,识别出图像中文字信息,但是随着时代的进步,自然场景下的文本检测需求越来越大,因为自然场景下的图像与扫描文档相比要复杂,其文本内容展现形式非常丰富,譬如多种语言文本混合排列的形式;字符有不同的大小、字体、颜色、弯曲度等;文本行有横向、纵向、弯曲等式样;图像中的文字区域还可能会产生遮挡、变形(透视、仿射变换)、残缺、模糊等现象。另外自然场景图像的背景也较为复杂,譬如文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的纹理,或者非文字区域有近似文字的纹理,譬如沙地、草丛、栅栏、砖墙等。近年来,针对水平方向的自然场景文本检测方法已有较大发展,随着研究的进步,任意方向的自然场景文本检测受到了越来越多研究学者的关注,由于文本的方向不确定,因此会给文本检测和识别带来更大的挑战。传统的文本检测算法是基于形态学和机器学习的方法,依据的是文本的固有属性特征,如笔划宽度、颜色、占空比等,算法对于扫描文本、规则的图像文本检测效果较佳,并且理论基础充分,但是对于自然场景等复杂的图像文本,尤其对于多方向排列的文本,检测效果较差;目前流行的文本检测算法是基于深度学习的方法,利用卷积神经网络提取图像特征,输出对图像中文本目标的预测值,该方法对于自然场景图像文本有较好的检测效果,但仍难于检测图像中多方向排列的文本。
技术实现思路
针对现有技术的不足,本专利技术的目的在于提供一种基于多尺度旋转锚点机制的多方向图像文本检测方法,以检测图像中多方向排列的文本。本专利技术提供一种基于多尺度旋转锚点机制的多方向图像文本检测方法,包括以下步骤:S1.输入彩色自然场景图像,用卷积核扫描图像,获得一系列特征图;S2.用设计好的多尺度锚点扫描特征图,获得一系列感兴趣文本区域;S3.将感兴趣文本区域输入到双向长短期记忆网络之中,获得感兴趣文本区域的上下文信息;S4.将感兴趣文本区域的上下文信息输入到一个全连接层网络当中,输出最终文本块区域的得分,文本块最小外包矩形的坐标、宽、高、排列方向等信息;S5.利用图像数据集当中的训练集,对深度学习模型进行训练;S6.模型训练好后,在测试集上进行模型的测试,重复步骤S1至步骤S4,得到测试图像的候选文本块,将候选文本块按预定规则组合成文本行;S7.利用非极大值抑制方法去掉重合的文本行,保留得分最高的文本行,得到最终的测试结果。在一个具体实施方式中,所述步骤S5中,对深度学习模型进行训练,采用的损失函数为多任务损失函数:其中,Ltotal为模型的总损失,Lcls为模型的分类损失,Lreg为文本块最小外包矩形框坐标的回归损失,Ns,Nv,Nu为正则化参数,λ1,λ2为控制三个任务的平衡参数,i,j为锚点的索引值,pi为感兴趣文本区域对于第i个锚点被预测为正样本的概率,d∈{0,1}为文本或非文本标签,(x,y)为文本块最小外包矩形框的左上角坐标,h为文本块最小外包矩形框的高,θ为文本块最小外包矩形框的倾斜角度,为文本块最小外包矩形的预测值与标定值,k为边缘锚点索引值,该锚点被预测位于文本行的边缘,为预测的边缘文本块和标定的边缘文本块的补偿值。在一个具体实施方式中,所述步骤S6中,候选文本块按照以下规则排列成文本行,具体如下:1)候选文本块得分大于0.5;2)候选文本块倾斜方向接近的(差距不超过5°)组合成文本行;3)候选文本块长边比率在0.8~1.2之间。相对于现有技术,本专利技术具有以下有益技术效果:本专利技术提出一种多尺度旋转锚点机制的多方向图像文本检测方法,利用卷积神经网络提取图像特征,获取一系列的特征图像,设计多尺度旋转的锚点,在每一幅特征图像上进行扫描,获取任意方向感兴趣文本区域,再将感兴趣文本区域输入到双向的长短期记忆网络当中,获取文本块的上下文信息,再输入到全连接层当中,输出文本块的分数和最小矩形包围框的预测,最后将文本块组合成文本行,利用非极大值抑制方法去掉重复的文本框,获得最终的文本行检测结果。本专利技术检测方法简单、可操作性较强,可以检测图像中多方向排列的文本,具有广泛的应用前景。附图说明图1是本专利技术的流程图。图2是本专利技术的原理图。图3是原始的自然场景图像。图4是多尺度旋转锚点设计形态。图5是候选文本块图像。图6是候选文本行图像。图7是筛选后的文本行图像。具体实施方式下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种基于多尺度旋转锚点机制的多方向图像文本检测方法,如图1~2所示,包括以下步骤:S1.输入彩色自然场景图像,用卷积核扫描图像,获得一系列特征图;S2.用设计好的多尺度锚点扫描特征图,获得一系列感兴趣文本区域;S3.将感兴趣文本区域输入到双向长短期记忆网络之中,获得感兴趣文本区域的上下文信息;S4.将感兴趣文本区域的上下文信息输入到一个全连接层网络当中,输出最终文本块区域的得分,文本块最小外包矩形的坐标、宽、高、排列方向等信息;S5.利用图像数据集当中的训练集,对深度学习模型进行训练;S6.模型训练好后,在测试集上进行模型的测试,重复步骤S1至步骤S4,得到测试图像的候选文本块,将候选文本块按一定的规则组合成文本行;S7.利用非极大值抑制方法去掉重合的文本行,保留得分最高的文本行,得到最终的测试结果。下面结合具体实施例和附图对本专利技术进行详细的说明:实施例1本专利技术实施例一种基于多尺度旋转锚点机制的多方向图像文本检测方法,包括以下步骤:(1)将自然场景图像(包含文本,如图3所示)输入到卷积神经网络中,获得一系列的特征图;(2)利用设计好的多尺度旋转锚点(如图4所示)对特征图进行扫描,提取出候选文本块区域(如图5所示),其中锚点的长为8、16、32、128、256,宽为8,锚点的倾斜方向选取0°、30°、60°、90°、120°、150°;(3)将特征图输入到双向长短期记忆网络中,以提取文本块的上下文信息;(4)将特征图转换为特征序列,然后输入到全连接层网络当中,得到每个候选文本块的得分(文本/非文本),以及文本块的最小外包矩形框的坐标、宽、高和倾斜方向,我们将候选文本块显示在原图中,如图5所示;(5)训练模型采用的损失函数为多任务损失函数:其中,Ltotal为模型的总损失,Lcls为模型的分类损失,Lreg为文本块最小外包矩形框坐标的回归损失,Ns,Nv,Nu为正则化参数,λ1,λ2为控制三个任务的平衡参数,i,j为锚点的索引值,pi本文档来自技高网
...

【技术保护点】
1.一种基于多尺度旋转锚点机制的多方向图像文本检测方法,其特征在于,包括以下步骤:S1.输入彩色自然场景图像,用卷积核扫描图像,获得一系列特征图;S2.用设计好的多尺度锚点扫描特征图,获得一系列感兴趣文本区域;S3.将感兴趣文本区域输入到双向长短期记忆网络之中,获得感兴趣文本区域的上下文信息;S4.将感兴趣文本区域的上下文信息输入到一个全连接层网络当中,输出最终文本块区域的得分,文本块最小外包矩形的坐标、宽、高、排列方向等信息;S5.利用图像数据集当中的训练集,对深度学习模型进行训练;S6.模型训练好后,在测试集上进行模型的测试,重复步骤S1至步骤S4,得到测试图像的候选文本块,将候选文本块按预定规则组合成文本行;S7.利用非极大值抑制方法去掉重合的文本行,保留得分最高的文本行,得到最终的测试结果。

【技术特征摘要】
1.一种基于多尺度旋转锚点机制的多方向图像文本检测方法,其特征在于,包括以下步骤:S1.输入彩色自然场景图像,用卷积核扫描图像,获得一系列特征图;S2.用设计好的多尺度锚点扫描特征图,获得一系列感兴趣文本区域;S3.将感兴趣文本区域输入到双向长短期记忆网络之中,获得感兴趣文本区域的上下文信息;S4.将感兴趣文本区域的上下文信息输入到一个全连接层网络当中,输出最终文本块区域的得分,文本块最小外包矩形的坐标、宽、高、排列方向等信息;S5.利用图像数据集当中的训练集,对深度学习模型进行训练;S6.模型训练好后,在测试集上进行模型的测试,重复步骤S1至步骤S4,得到测试图像的候选文本块,将候选文本块按预定规则组合成文本行;S7.利用非极大值抑制方法去掉重合的文本行,保留得分最高的文本行,得到最终的测试结果。2.根据权利要求1所述基于多尺度旋转锚点机制的多方向图像文本检测方法,其特征在于,所述步骤S5中,对深度学习模型进行训练,采用的损失...

【专利技术属性】
技术研发人员:邹北骥杨文君朱承璋刘宁赵杰岩许杏
申请(专利权)人:中南大学深圳火眼智能有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1