自然场景图片的文字检测方法、系统、装置和存储介质制造方法及图纸

技术编号:21659385 阅读:39 留言:0更新日期:2019-07-20 05:48
本发明专利技术公开了一种自然场景图片的文字检测方法、系统、装置和存储介质,其中方法包括以下步骤:获取待检测的图片后,将图片输入预设的文字检测模型;采用文字检测模型获取图片的第一文字特征;结合第一文字特征和预设的特征融合方式获取第二文字特征;根据第二文字特征进行文字区域检测后,输出边界框检测图。本发明专利技术通过文字检测模型先获取待检测的图片的第一文字特征,在结合预设的特征融合方式对第一文字特征进行优化后,从而获得获取高分辨率和高语义的特征,进而能够获得不同大小的文字,极大地提高了文字检测的精确率,可广泛应用于计算机图像处理技术领域。

Text Detection Method, System, Device and Storage Media for Natural Scene Pictures

【技术实现步骤摘要】
自然场景图片的文字检测方法、系统、装置和存储介质
本专利技术涉及计算机图像处理
,尤其涉及一种自然场景图片的文字检测方法、系统、装置和存储介质。
技术介绍
日常生活中的图片往往包含文字,为了能更好地理解图片中文字的信息,需要使用文字检测与文字识别技术。其中文字检测尤为重要,因为它会直接影响后续的文字识别的识别率。文字检测类似于目标检测,它的主要任务为检测图片中的文字区域。自然场景下的文字检测有别于传统的印刷文档中的文字检测,印刷文档中的文字字体规范且排列整齐,文字与背景之间具有明显的差异性,从而背景信息对文字难以造成强烈的干扰。然而在自然场景图片中,文字具有多样性,包括大小、方向、纵横比、字体和颜色等。不仅如此,自然场景中的背景复杂,有许多类似文字笔画的物体干扰,如栅栏和格子。目前主要有三种类型的场景文字检测方法,基于文字区域建议的方法、基于语义分割的方法和直接回归的方法。基于文字区域建议的方法主要使用Faster-RCNN(FasterRegion-basedConvolutionalNeuralNetworks)或SSD(SingleShotMultiBoxDetector)网络结构进行扩展。这种方法首先以每一个像素点为中心生成多个先验的检测框,再判断这些检测框内是否包含完整的文字,最后对包含完整的文字的检测框进行精修从而贴合文字边界。基于语义分割的方法是对图像进行像素级别的分类,判断每一个像素点是否属于文字区域,最后使用后处理方法对预测的文字区域生成文字边界框。直接回归方法类似于语义分割的方法,首先判断每一个像素点是否属于文字区域,不同的是,直接回归方法是在每一个像素点的位置直接生成它当前所在的文字区域的边界框。上述这些方法对于小文字的检测效果不佳,存在漏检小文字或无法正确划分小文字的问题,从而导致小文字的信息丢失。名称解释:文字检测:文字检测指的是检测图片中所包含的文字区域。ReLU:一种激活函数。NMS:非极大值抑制(Non-MaximumSuppression,NMS)。FCN:全卷积网络(FullyConvolutionalNetworks,FCN)。RefineText:优化的文字检测方法。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种能够全面地检测图片中大小不同的文字,都能精确定位文字的边界的文字检测方法、系统、装置和存储介质。本专利技术所采用的第一技术方案是:一种自然场景图片的文字检测方法,包括以下步骤:采用文字检测模型获取图片的第一文字特征;结合第一文字特征和预设的特征融合方式获取第二文字特征;根据第二文字特征进行文字区域检测后,输出边界框检测图。进一步,所述第一文字特征包括第一特征图、第二特征图、第三特征图、第四特征图和第五特征图,所述采用文字检测模型获取图片的第一文字特征这一步骤,具体为:采用预设的深度神经网络模型获取对图片进行特征提取处理,并依次获得第一特征图、第二特征图、第三特征图、第四特征图和第五特征图;所述第一特征图、第二特征图、第三特征图、第四特征图和第五特征图的特征分辨率依次下降。进一步,所述结合第一文字特征和预设的特征融合方式获取第二文字特征这一步骤,具体包括以下步骤:对第五特征图进行深度挖掘后,获取第一优化特征图;对第四特征图进行深度挖掘后获取第二优化特征图,并结合第一优化特征图和第二优化特征图生成第一融合特征图;对第三特征图进行深度挖掘后获取第三优化特征图,并结合第三优化特征图和第一融合特征图生成第二融合特征图;对第二特征图进行深度挖掘后获取第四优化特征图,并结合第四优化特征图和第二融合特征图生成第三融合特征图作为第二文字特征。进一步,所述对第五特征图进行深度挖掘后,获取第一优化特征图这一步骤,具体为:采用第一预设卷积层降低第五特征图的通道数量;采用第一预设残差构建块对第五特征图进行深度挖掘后,获取第一优化特征图。进一步,所述对第四特征图进行深度挖掘后获取第二优化特征图,并结合第一优化特征图和第二优化特征图生成第一融合特征图这一步骤,具体包括以下步骤:采用第一预设卷积层降低第四特征图的通道数量;采用第一预设残差构建块对第四特征图进行深度挖掘后,获取第二优化特征图;对第一优化特征图进行上采样处理后,将第二优化特征图和第一优化特征图进行加法处理,并获得初步融合特征图;采用第二预设卷积层对初步融合特征图进行转义处理,并采用预设的残差池化构建块对初步融合特征图进行深度挖掘;采用第二预设残差构建块对经过残差池化构建块深度挖掘的初步融合特征图进行处理后,输出第一融合特征图。进一步,所述文字检测模型采用组合损失函数进行训练,所述组合损失函数公式为:L=Lcls+λregLreg其中所述Lcls为分类损失函数,所述Lreg为回归损失函数,所述λreg为平衡分类损失函数和回归损失函数的系数。进一步,所述将图片输入预设的文字检测模型这一步骤,具体包括以下步骤:依次对待检测的图片进行缩放处理后,获得放大尺寸图片、原尺寸图片和缩小尺寸图片;依次将放大尺寸图片、原尺寸图片和缩小尺寸图片输入预设的文字检测模型;所述根据第二文字特征进行文字区域检测后,输出边界框检测图这一步骤,具体包括以下步骤:根据各图片的第二文字特征进行文字区域检测后,获得三个边界框检测图;将三个边界框检测图进行融合后,输出最终的边界框检测图。本专利技术所采用的第二技术方案是:一种自然场景图片的文字检测系统,包括:图片输入模块,用于获取待检测的图片后,将图片输入预设的文字检测模型;特征提取模块,用于采用文字检测模型获取图片的第一文字特征;特征优化模块,用于结合第一文字特征和预设的特征融合方式获取第二文字特征;检测输出模块,用于根据第二文字特征进行文字区域检测后,输出边界框检测图。本专利技术所采用的第三技术方案是:一种计算机代码自动生成装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行上述方法。本专利技术所采用的第四技术方案是:一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上述的方法。本专利技术的有益效果是:本专利技术通过文字检测模型先获取待检测的图片的第一文字特征,在结合预设的特征融合方式对第一文字特征进行优化后,从而获得获取高分辨率和高语义的特征,进而能够获得不同大小的文字,极大地提高了文字检测的精确率。附图说明图1是一种自然场景图片的文字检测方法的步骤流程图;图2是具体实施例中对第一文字特征进行融合优化的结构示意图;图3是具体实施例中采用多尺度进行测试的示意图;图4是一种自然场景图片的文字检测系统的结构框图。具体实施方式实施例一如图1所示,本实施例提供一种自然场景图片的文字检测方法,包括以下步骤:S1、获取待检测的图片后,将图片输入预设的文字检测模型;S2、采用文字检测模型获取图片的第一文字特征。S3、结合第一文字特征和预设的特征融合方式获取第二文字特征;S4、根据第二文字特征进行文字区域检测后,输出边界框检测图。现有的文字检测方法中对于小文字的检测效果不佳,主要是存在漏检小文字或无法正确划分小文字的问题。这是由于现有的文字检测算法没能深度挖掘浅层特征的文字信息,从而导致小文字的信息丢失。本方法将待检测的图片输入文字检测本文档来自技高网
...

【技术保护点】
1.一种自然场景图片的文字检测方法,其特征在于,包括以下步骤:获取待检测的图片后,将图片输入预设的文字检测模型;采用文字检测模型获取图片的第一文字特征;结合第一文字特征和预设的特征融合方式获取第二文字特征;根据第二文字特征进行文字区域检测后,输出边界框检测图。

【技术特征摘要】
1.一种自然场景图片的文字检测方法,其特征在于,包括以下步骤:获取待检测的图片后,将图片输入预设的文字检测模型;采用文字检测模型获取图片的第一文字特征;结合第一文字特征和预设的特征融合方式获取第二文字特征;根据第二文字特征进行文字区域检测后,输出边界框检测图。2.根据权利要求1所述的一种自然场景图片的文字检测方法,其特征在于,所述第一文字特征包括第一特征图、第二特征图、第三特征图、第四特征图和第五特征图,所述采用文字检测模型获取图片的第一文字特征这一步骤,具体为:采用预设的深度神经网络模型获取对图片进行特征提取处理,并依次获得第一特征图、第二特征图、第三特征图、第四特征图和第五特征图;所述第一特征图、第二特征图、第三特征图、第四特征图和第五特征图的特征分辨率依次下降。3.根据权利要求2所述的一种自然场景图片的文字检测方法,其特征在于,所述结合第一文字特征和预设的特征融合方式获取第二文字特征这一步骤,具体包括以下步骤:对第五特征图进行深度挖掘后,获取第一优化特征图;对第四特征图进行深度挖掘后获取第二优化特征图,并结合第一优化特征图和第二优化特征图生成第一融合特征图;对第三特征图进行深度挖掘后获取第三优化特征图,并结合第三优化特征图和第一融合特征图生成第二融合特征图;对第二特征图进行深度挖掘后获取第四优化特征图,并结合第四优化特征图和第二融合特征图生成第三融合特征图作为第二文字特征。4.根据权利要求3所述的一种自然场景图片的文字检测方法,其特征在于,所述对第五特征图进行深度挖掘后,获取第一优化特征图这一步骤,具体为:采用第一预设卷积层降低第五特征图的通道数量;采用第一预设残差构建块对第五特征图进行深度挖掘后,获取第一优化特征图。5.根据权利要求4所述的一种自然场景图片的文字检测方法,其特征在于,所述对第四特征图进行深度挖掘后获取第二优化特征图,并结合第一优化特征图和第二优化特征图生成第一融合特征图这一步骤,具体包括以下步骤:采用第一预设卷积层降低第四特征图的通道数量;采用第一预设残差构建块对第四特征...

【专利技术属性】
技术研发人员:肖菁谢鹏源李晶晶曹阳朱佳
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1