一种自然场景文本检测方法及系统技术方案

技术编号:21799971 阅读:38 留言:0更新日期:2019-08-07 10:43
本发明专利技术提出一种自然场景文本检测方法及系统,包含两个神经网络模型:基于多层次语义特征融合的文本检测网络和基于注意力机制的检测筛选网络。文本检测网络是一个基于FCN的图像特征提取融合网络,该网络用于提取输入数据的多语义层次信息,并进行多尺度特征的充分融合,最后通过对融合的多尺度信息进行卷积操作,预测自然场景中的文本信息的位置和置信度。检测筛选网络是利用训练好的卷积循环神经网络对第一部分的卷积神经网络输出的初始检测结果进行判别评分从而过滤掉易与前景文字混淆的背景,从而进一步提升自然场景文本识别的准确率。

A Text Detection Method and System for Natural Scene

【技术实现步骤摘要】
一种自然场景文本检测方法及系统
本专利技术涉及计算机视觉、文档分析与识别和自然场景文本检测领域,并特别涉及一种自然场景文本检测方法及系统。
技术介绍
自然场景文本检测是一项既重要又极其富有挑战的任务。由于自然场景文本检测通常是在开放场景下对场景中的文本进行识别,因此光照、角度和畸变等因素对文本检测造成很大的干扰,严重影响文本检测的准确性。传统的文本检测普遍使用基于ConnectedComponents(连通部件)的技术,但是该技术只能提取较为明显的文本区域,难以将图像中全局信息考虑在内,因此该技术性能较为有限。目前基于深度学习的自然场景文本检测由于大多采用了基于Proposal(候选框)的技术,其性能相比传统方法有较大提升,但目前也遇到瓶颈,即难以应对复杂自然场景中光照、背景、角度以及文本表观和角度的多样性,特别是复杂背景易与文本前景混淆。究其原因是现有的特征表示方法在上述条件下缺乏对复杂背景和前景文字的判别力。如果能够在考虑全局特征的情况下,使用文本识别技术加以矫正和精调,自然场景文本检测的精确度和鲁棒性可以获得有效提升。因此,为提升自然场景下文本检测的准确性和鲁棒性,我们提出了一种将基于多层次语义特征的文本检测网络和基于注意力机制的识别后处理网络相结合的自然场景文本检测技术。
技术实现思路
本专利技术的目的是解决基于深度卷积神经网络的自然场景文本检测方法中,复杂背景易与前景文本混淆的问题。所提出的方法在保证文本检测召回率的前提下,有效提升了检测准确率。针对现有技术的不足,本专利技术提出一种自然场景文本检测方法,其中包括:步骤1、获取包括多张训练图片的训练集,该训练图片均为自然场景且已被标记文字位置,构建包括特征提取网络和特征融合网络的深度特征融合网络;步骤2、通过该特征提取网络提取该训练图片的多尺度图像特征,将该多尺度图像特征输入该特征融合网络得到融合特征,并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域,根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数;步骤3、重新选取该训练图片,多次执行该步骤2以训练该深度特征融合网络,直到该损失函数收敛,保存该深度特征融合网络作为文本检测模型;步骤4、以该训练集训练卷积循环神经网络,训练完成后,通过修改该卷积循环神经网络的翻译层为二分类层,并将修改后的该卷积循环神经网络作为文本识别网络;步骤5、将待文字检测的自然场景图像送入该文本检测模型,得到初步文本区域,并通过该文本识别网络筛选该初步文本区域,将筛选结果作为文本检测结果。所述的自然场景文本检测方法,其中该卷积循环神经网络包括:卷积层、编码层、注意力层、解码层和翻译层;通过该卷积层提取该训练图片的卷积特征图;通过该编码层将该卷积特征图整合为序列特征并进行编码;该注意力层根据序列信息和编码结果重新加权整合送入该解码层进行解码,将解码后的信息送入该翻译层翻译为目标文本。所述的自然场景文本检测方法,其中使用联结时间的分类损失函数训练该卷积循环神经网络,直到该联结时间的分类损失函数收敛,训练完成;lossctc=CTCLoss(predict,labels)其中,CTCLoss为联结时间的分类损失函数,predict为该卷积循环神经网络最后一层的预测概率输出,labels为输入训练图片的文本内容标签。所述的自然场景文本检测方法,其中步骤2中该损失函数包括DiceLoss损失函数和IoULoss损失函数其中,DiceLoss损失函数用于监督文本区域分类概率的预测:其中P和G分别对应图像的文本预测置信度的真实的置信度,⊙代表哈达玛积;IoULoss损失函数用于监督文本区域位置的预测:其中Rp和Rg分别代表预测的文本区域坐标和实际的文本区域坐标,θp和θg分别代表预测的文本区域的角度和实际的文本区域的角度。所述的自然场景文本检测方法,其中步骤5中该文本识别网络筛选该初步文本区域的过程为:该文本识别网络的卷积层部分从该初步文本区域中提取卷积特征图作为有效信息,将该有效信息按照预设顺序整合为序列特征送入该初步文本区域中编码层进行编码,得到编码信息,该初步文本区域中注意力层根据该预设顺序加权整合该编码信息后送入解码层,将解码后的信息送入该二分类层,判断该初步文本区域内是否具有文本。本专利技术还公开了一种自然场景文本检测系统,其中包括:模块1、获取包括多张训练图片的训练集,该训练图片均为自然场景且已被标记文字位置,构建包括特征提取网络和特征融合网络的深度特征融合网络;模块2、通过该特征提取网络提取该训练图片的多尺度图像特征,将该多尺度图像特征输入该特征融合网络得到融合特征,并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域,根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数;模块3、重新选取该训练图片,多次执行该模块2以训练该深度特征融合网络,直到该损失函数收敛,保存该深度特征融合网络作为文本检测模型;模块4、以该训练集训练卷积循环神经网络,训练完成后,通过修改该卷积循环神经网络的翻译层为二分类层,并将修改后的该卷积循环神经网络作为文本识别网络;模块5、将待文字检测的自然场景图像送入该文本检测模型,得到初步文本区域,并通过该文本识别网络筛选该初步文本区域,将筛选结果作为文本检测结果。所述的自然场景文本检测系统,其中该卷积循环神经网络包括:卷积层、编码层、注意力层、解码层和翻译层;通过该卷积层提取该训练图片的卷积特征图;通过该编码层将该卷积特征图整合为序列特征并进行编码;该注意力层根据序列信息和编码结果重新加权整合送入该解码层进行解码,将解码后的信息送入该翻译层翻译为目标文本。所述的自然场景文本检测系统,其中使用联结时间的分类损失函数训练该卷积循环神经网络,直到该联结时间的分类损失函数收敛,训练完成;lossctc=CTCLoss(predict,labels)其中,CTCLoss为联结时间的分类损失函数,predict为该卷积循环神经网络最后一层的预测概率输出,labels为输入训练图片的文本内容标签。所述的自然场景文本检测系统,其中模块2中该损失函数包括DiceLoss损失函数和IoULoss损失函数其中,DiceLoss损失函数用于监督文本区域分类概率的预测:其中P和G分别对应图像的文本预测置信度的真实的置信度,⊙代表哈达玛积;IoULoss损失函数用于监督文本区域位置的预测:其中Rp和Rg分别代表预测的文本区域坐标和实际的文本区域坐标,θp和θg分别代表预测的文本区域的角度和实际的文本区域的角度。所述的自然场景文本检测系统,其中模块5中该文本识别网络筛选该初步文本区域的过程为:该文本识别网络的卷积层部分从该初步文本区域中提取卷积特征图作为有效信息,将该有效信息按照预设顺序整合为序列特征送入该初步文本区域中编码层进行编码,得到编码信息,该初步文本区域中注意力层根据该预设顺序加权整合该编码信息后送入解码层,将解码后的信息送入该二分类层,判断该初步文本区域内是否具有文本。本专利技术关键点及对应的技术效果:1,设计了融合多层次语义特征的卷积神经网络结构用于自然场景文本检测,网络结构如附图2所示。该模型与之前的主流文本检测方法的不同之处主要是以下几个方面:①与传统的基于Connected本文档来自技高网...

【技术保护点】
1.一种自然场景文本检测方法,其特征在于,包括:步骤1、获取包括多张训练图片的训练集,该训练图片均为自然场景且已被标记文字位置,构建包括特征提取网络和特征融合网络的深度特征融合网络;步骤2、通过该特征提取网络提取该训练图片的多尺度图像特征,将该多尺度图像特征输入该特征融合网络得到融合特征,并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域,根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数;步骤3、重新选取该训练图片,多次执行该步骤2以训练该深度特征融合网络,直到该损失函数收敛,保存该深度特征融合网络作为文本检测模型;步骤4、以该训练集训练卷积循环神经网络,训练完成后,通过修改该卷积循环神经网络的翻译层为二分类层,并将修改后的该卷积循环神经网络作为文本识别网络;步骤5、将待文字检测的自然场景图像送入该文本检测模型,得到初步文本区域,并通过该文本识别网络筛选该初步文本区域,将筛选结果作为文本检测结果。

【技术特征摘要】
1.一种自然场景文本检测方法,其特征在于,包括:步骤1、获取包括多张训练图片的训练集,该训练图片均为自然场景且已被标记文字位置,构建包括特征提取网络和特征融合网络的深度特征融合网络;步骤2、通过该特征提取网络提取该训练图片的多尺度图像特征,将该多尺度图像特征输入该特征融合网络得到融合特征,并由该特征融合网络中最后一个卷积层确定该训练图像的文本区域,根据该文字位置、该文本区域和该文本区域内包括文本的置信度构建损失函数;步骤3、重新选取该训练图片,多次执行该步骤2以训练该深度特征融合网络,直到该损失函数收敛,保存该深度特征融合网络作为文本检测模型;步骤4、以该训练集训练卷积循环神经网络,训练完成后,通过修改该卷积循环神经网络的翻译层为二分类层,并将修改后的该卷积循环神经网络作为文本识别网络;步骤5、将待文字检测的自然场景图像送入该文本检测模型,得到初步文本区域,并通过该文本识别网络筛选该初步文本区域,将筛选结果作为文本检测结果。2.如权利要求1所述的自然场景文本检测方法,其特征在于,该卷积循环神经网络包括:卷积层、编码层、注意力层、解码层和翻译层;通过该卷积层提取该训练图片的卷积特征图;通过该编码层将该卷积特征图整合为序列特征并进行编码;该注意力层根据序列信息和编码结果重新加权整合送入该解码层进行解码,将解码后的信息送入该翻译层翻译为目标文本。3.如权利要求2所述的自然场景文本检测方法,其特征在于,使用联结时间的分类损失函数训练该卷积循环神经网络,直到该联结时间的分类损失函数收敛,训练完成;lossctc=CTCLoss(predict,labels)其中,CTCLoss为联结时间的分类损失函数,predict为该卷积循环神经网络最后一层的预测概率输出,labels为输入训练图片的文本内容标签。4.如权利要求1所述的自然场景文本检测方法,其特征在于,步骤2中该损失函数包括DiceLoss损失函数和IoULoss损失函数其中,DiceLoss损失函数用于监督文本区域分类概率的预测:其中P和G分别对应图像的文本预测置信度的真实的置信度,⊙代表哈达玛积;IoULoss损失函数用于监督文本区域位置的预测:其中Rp和Rg分别代表预测的文本区域坐标和实际的文本区域坐标,θp和θg分别代表预测的文本区域的角度和实际的文本区域的角度。5.如权利要求1所述的自然场景文本检测方法,其特征在于,步骤5中该文本识别网络筛选该初步文本区域的过程为:该文本识别网络的卷积层部分从该初步文本区域中提取卷积特征图作为有效信息,将该有效信息按照预设顺序整合为序列特征送入该初步文本区域中编码层进行编码,得到编码信息,该初步文本区域中注意力层根据该预设顺序加权整合该编码信息后送入解码层,将解码后的信息送入该二分类层,判断该初步文本区域内是否具有文本。...

【专利技术属性】
技术研发人员:韩琥宋宇崔元顺山世光陈熙霖
申请(专利权)人:中国科学院计算技术研究所中科视拓北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1