The invention proposes a scene text erasing method based on full-convolution network depth model, which includes the following steps: collecting and synthesizing corresponding text and non-text pictures, constructing a conditional generation antagonistic full-convolution hidden neural network model for accomplishing the task of automatic text erasing in natural scenes, training and testing the model network, and inputting a text image of natural scenes. By implicitly integrating the mechanism of text detection and image filling into the training of the full convolution hidden neural network model, the discriminator is used to assist the training generator in the training stage of the full convolution hidden neural network model, so as to ensure that the prediction value of the regression of the full convolution hidden neural network model is more connected. Nearly true, in the training process of the full convolution hidden neural network model, the use of antagonistic generation network can improve the erasure effect of the network, so as to generate high-quality non-text image prediction.
【技术实现步骤摘要】
一种基于全卷积网络的深度模型的场景文本擦除方法
本专利技术涉及模式识别与人工智能领域,尤其涉及一种基于全卷积网络的深度模型的场景文本擦除方法。
技术介绍
在我们的日常生活当中,自然场景文字无处不在,文字是人类交流的基本工具,对人类理解信息有着至关重要的作用,与此同时,各种隐私信息,比如身份证号码、手机号码、车牌号码以及家庭住址等也暴露在自然场景文本当中,随着自然场景文本检测与识别技术的发展,如此重要的隐私信息很容易被机器自动收集用于欺诈、营销或其他非法活动,如何隐藏这些暴露于自然场景之中的隐私信息成为了研究的热点。对于隐藏自然场景文本问题,传统的方法通常对图像做文本检测,然后人工设计一些规则滤除一些负样本,接着将文本区域移除,最后通过图像填补算法来补全移除的文本区域,这种方法一方面高度依赖文本检测的准确性,另一方面对人工设计的规则以及填补算法要求较高,其次单张图片处理的效率与文本区域成反比,只能解决一些干净,清晰,分布规则的简单图像。目前关于场景文本擦除的研究倾向于图像填补算法上,假设用户提供要移除目标的掩码,而获取对应的掩码也是一个极具挑战的任务,如果我们不能获取非常整齐的掩码,那么填补算法会试图补回目标,会产生相反的效果。因此,本专利技术提出一种基于全卷积网络的深度模型的场景文本擦除方法,以解决现有技术中的不足之处。
技术实现思路
针对上述问题,本专利技术通过将文本检测以及图片填补的机制隐式的融入到全卷积隐藏神经网络模型的训练当中,在全卷积隐藏神经网络模型训练阶段利用判别器辅助训练生成器,从而保证全卷积隐藏神经网络模型回归的预测值更加接近于真实,在全卷积隐 ...
【技术保护点】
1.一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于,包括以下步骤:步骤一:数据采集,收集并合成对应的文本与非文本图片,并人工标注成对的真实自然场景数据;步骤二:训练网络,首先构建一个条件生成对抗全卷积隐藏神经网络模型用于完成自然场景文本自动擦除任务,然后将成对图片输入到全卷积隐藏神经网络模型,计算相对应的代价函数,再将自然场景文本图片输入到全卷积隐藏神经网络模型中,利用多个重组的回归损失和对抗性损失作为监督信号,以交替训练的优化方式来训练全卷积隐藏神经网络模型直至收敛;步骤三:测试网络,输入一张自然场景文本图像,利用全卷积隐藏神经网络模型返回预测结果。
【技术特征摘要】
1.一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于,包括以下步骤:步骤一:数据采集,收集并合成对应的文本与非文本图片,并人工标注成对的真实自然场景数据;步骤二:训练网络,首先构建一个条件生成对抗全卷积隐藏神经网络模型用于完成自然场景文本自动擦除任务,然后将成对图片输入到全卷积隐藏神经网络模型,计算相对应的代价函数,再将自然场景文本图片输入到全卷积隐藏神经网络模型中,利用多个重组的回归损失和对抗性损失作为监督信号,以交替训练的优化方式来训练全卷积隐藏神经网络模型直至收敛;步骤三:测试网络,输入一张自然场景文本图像,利用全卷积隐藏神经网络模型返回预测结果。2.根据权利要求1所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述步骤一中合成的一定数量的成对的自然场景文本与非文本图片需要被划分成训练集和测试集,训练集用于训练全卷积隐藏神经网络模型,测试集用于测试全卷积隐藏神经网络模型的性能。3.根据权利要求1所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述步骤二中条件生成对抗全卷积隐藏神经网络模型由三个子网络组成,具体为生成器网络、判别器网络和损失网络,所述生成器网络是基于全卷积神经网络的结构进行设计的,它的输入是一张自然场景图片。4.根据权利要求3所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述判别器网络是由多个卷积层加正则化层以及激活层组成,将输入图片与预测结果一起送入判别器网络,经过卷积层提取高维特征之后,接入激活函数层,最终输出关于对应感受野图片块真假的预测分数。5.根据权利要求3所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述损失网络由VGG网络组成,所述VGG网络由多个卷积层、正则化层、激活函数层以及池化层叠加而成,将对应的预测图片和真实标签图片一起送入损失网络,可以进行优化两张图片在高维特征上的距离。6.根据权利要求1所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述步骤二中将成对图片输入到全卷积隐藏神经网络中时,首先由卷积特征抽取支路网络抽取高维特征进行文本与非文本特征的区分,接受由反卷积支路去预测对应的非文本特征。7.根据权利要求6所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述步骤二中将成对图片输入到全卷积隐藏神经网络中的过程中,由于特征经过低维到高维再到低维的转换,一些细节信息会被丢失,...
【专利技术属性】
技术研发人员:金连文,张帅涛,刘禹良,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。