一种基于全卷积网络的深度模型的场景文本擦除方法技术

技术编号:20623571 阅读:39 留言:0更新日期:2019-03-20 14:53
本发明专利技术提出一种基于全卷积网络的深度模型的场景文本擦除方法,包括以下步骤:收集并合成对应的文本与非文本图片、构建一个条件生成对抗全卷积隐藏神经网络模型用于完成自然场景文本自动擦除任务,并进行模型训练和测试网络,输入一张自然场景文本图像,利用全卷积隐藏神经网络模型返回预测结果;本发明专利技术通过将文本检测以及图片填补的机制隐式的融入到全卷积隐藏神经网络模型的训练当中,在全卷积隐藏神经网络模型训练阶段利用判别器辅助训练生成器,从而保证全卷积隐藏神经网络模型回归的预测值更加接近于真实,在全卷积隐藏神经网络模型的训练过程中利用对抗式生成网络提高网络的擦除效果,从而可以生成高品质的非文本图片预测。

A Scene Text Erasion Method Based on Full Convolutional Network Depth Model

The invention proposes a scene text erasing method based on full-convolution network depth model, which includes the following steps: collecting and synthesizing corresponding text and non-text pictures, constructing a conditional generation antagonistic full-convolution hidden neural network model for accomplishing the task of automatic text erasing in natural scenes, training and testing the model network, and inputting a text image of natural scenes. By implicitly integrating the mechanism of text detection and image filling into the training of the full convolution hidden neural network model, the discriminator is used to assist the training generator in the training stage of the full convolution hidden neural network model, so as to ensure that the prediction value of the regression of the full convolution hidden neural network model is more connected. Nearly true, in the training process of the full convolution hidden neural network model, the use of antagonistic generation network can improve the erasure effect of the network, so as to generate high-quality non-text image prediction.

【技术实现步骤摘要】
一种基于全卷积网络的深度模型的场景文本擦除方法
本专利技术涉及模式识别与人工智能领域,尤其涉及一种基于全卷积网络的深度模型的场景文本擦除方法。
技术介绍
在我们的日常生活当中,自然场景文字无处不在,文字是人类交流的基本工具,对人类理解信息有着至关重要的作用,与此同时,各种隐私信息,比如身份证号码、手机号码、车牌号码以及家庭住址等也暴露在自然场景文本当中,随着自然场景文本检测与识别技术的发展,如此重要的隐私信息很容易被机器自动收集用于欺诈、营销或其他非法活动,如何隐藏这些暴露于自然场景之中的隐私信息成为了研究的热点。对于隐藏自然场景文本问题,传统的方法通常对图像做文本检测,然后人工设计一些规则滤除一些负样本,接着将文本区域移除,最后通过图像填补算法来补全移除的文本区域,这种方法一方面高度依赖文本检测的准确性,另一方面对人工设计的规则以及填补算法要求较高,其次单张图片处理的效率与文本区域成反比,只能解决一些干净,清晰,分布规则的简单图像。目前关于场景文本擦除的研究倾向于图像填补算法上,假设用户提供要移除目标的掩码,而获取对应的掩码也是一个极具挑战的任务,如果我们不能获取非常整齐的掩码,那么填补算法会试图补回目标,会产生相反的效果。因此,本专利技术提出一种基于全卷积网络的深度模型的场景文本擦除方法,以解决现有技术中的不足之处。
技术实现思路
针对上述问题,本专利技术通过将文本检测以及图片填补的机制隐式的融入到全卷积隐藏神经网络模型的训练当中,在全卷积隐藏神经网络模型训练阶段利用判别器辅助训练生成器,从而保证全卷积隐藏神经网络模型回归的预测值更加接近于真实,在全卷积隐藏神经网络模型的训练过程中利用对抗式生成网络提高网络的擦除效果,从而可以生成高品质的非文本图片预测,同时,本专利技术方法创建的深度全卷积隐藏神经网络模型是灵活的,可以通过不同基本网络结构实现的,实现方法方便简单,具有较强的实用性。本专利技术提出一种基于全卷积网络的深度模型的场景文本擦除方法,包括以下步骤:步骤一:数据采集,收集并合成对应的文本与非文本图片,并人工标注成对的真实自然场景数据;步骤二:训练网络,首先构建一个条件生成对抗全卷积隐藏神经网络模型用于完成自然场景文本自动擦除任务,然后将成对图片输入到全卷积隐藏神经网络模型,计算相对应的代价函数,再将自然场景文本图片输入到全卷积隐藏神经网络模型中,利用多个重组的回归损失和对抗性损失作为监督信号,以交替训练的优化方式来训练全卷积隐藏神经网络模型直至收敛;步骤三:测试网络,输入一张自然场景文本图像,利用全卷积隐藏神经网络模型返回预测结果。进一步改进在于:所述步骤一中合成的一定数量的成对的自然场景文本与非文本图片需要被划分成训练集和测试集,训练集用于训练全卷积隐藏神经网络模型,测试集用于测试全卷积隐藏神经网络模型的性能。进一步改进在于:所述步骤二中条件生成对抗全卷积隐藏神经网络模型由三个子网络组成,具体为生成器网络、判别器网络和损失网络,所述生成器网络是基于全卷积神经网络的结构进行设计的,它的输入是一张自然场景图片。进一步改进在于:所述判别器网络是由多个卷积层加正则化层以及激活层组成,将输入图片与预测结果一起送入判别器网络,经过卷积层提取高维特征之后,接入激活函数层,最终输出关于对应感受野图片块真假的预测分数。进一步改进在于:所述损失网络由VGG网络组成,所述VGG网络由多个卷积层、正则化层、激活函数层以及池化层叠加而成,将对应的预测图片和真实标签图片一起送入损失网络,可以进行优化两张图片在高维特征上的距离。进一步改进在于:所述步骤二中将成对图片输入到全卷积隐藏神经网络中时,首先由卷积特征抽取支路网络抽取高维特征进行文本与非文本特征的区分,接受由反卷积支路去预测对应的非文本特征。进一步改进在于:所述步骤二中将成对图片输入到全卷积隐藏神经网络中的过程中,由于特征经过低维到高维再到低维的转换,一些细节信息会被丢失,因此还需要用侧向连接模块将对应大小分别来自于卷积支路和反卷积支路的特征进行融合,对这两个特征向量进行按元素相加之后送入下一个反卷积模块,直到最后输出一个关于非文本的自然场景图片的预测结果。进一步改进在于:所述步骤二中代价函数由重组损失函数和对抗损失函数组成,具体如公式(1)所示:其中,λe,λi,λt表示各个损失函数的权重;重组损失函数的各个分项是基于欧式距离损失函数进行设计的,具体如公式(2)所示:其中,为多尺度回归损失,表示对应第i个反卷积层预测出来的输出,表示与第i个反卷积层输出大小相同的掩码以及真实的非文本图片,α表示文本与非文本区域之间的权重平衡因子,n代表选择用来做预测的层数;语义损失计算公式如公式(3)所示:其中,代表将预测的图片分为两个部分,文本区域与非文本区域,文本区域设置成预测出来的特征,非文本区域设置成对应的真实特征,n代表选择用来输出特征的层数,N代表预测的总的层数,代表对应的真实的非文本图片,代表对应的预测的非文本图片,表示经过VGG网络第n个层之后的特征图;纹理损失计算公式如公式(4)所示:其中,HnWnCn代表高维特征图的形状,代表将预测的图片分为两个部分,文本区域与非文本区域,文本区域设置成预测出来的特征,非文本区域设置成对应的真实特征,表示经过VGG网络第n个卷积层层之后的特征图,N代表用来输出特征的总的层数;去噪损失计算公式如公式(5)所示:其中,i,j代表预测图片上的像素点,是通过控制相邻像素之间的差值来进行去噪从而提高图片的品质。进一步改进在于:所述步骤二中使用反向传播算法对该条件生成对抗全卷积隐藏神经网络模型进行训练的具体过程为:使用反向传播算法,从最后一层计算传递梯度,逐层传递,更新所有的参数权重,达到训练网络的目的,训练采用交替训练的优化方式,首先初始化所有的网络结构,接着固定生成器网络训练判别器网络,然后反过来使用固定判别器网络训练生成器网络和损失网络,接着再次固定生成器网络训练判别器网络,以此类推直至模型收敛。进一步改进在于:所述步骤三中先将一张自然场景文本图片输入到全卷积隐藏神经网络模型的生成器网络中,生成器网络的输出即为最后的预测结果和全卷积隐藏神经网络模型预测的对应的非文本图片。本专利技术的有益效果为:通过将文本检测以及图片填补的机制隐式的融入到全卷积隐藏神经网络模型的训练当中,在全卷积隐藏神经网络模型训练阶段利用判别器辅助训练生成器,从而保证全卷积隐藏神经网络模型回归的预测值更加接近于真实,通过人工标注一定数量的配对的自然场景文本图片与非文本图片数据可以增加全卷积隐藏神经网络模型的泛化性能,在全卷积隐藏神经网络模型的训练过程中利用对抗式生成网络提高网络的擦除效果,从而可以生成高品质的非文本图片预测,同时,本专利技术方法创建的深度全卷积隐藏神经网络模型是灵活的,可以通过不同基本网络结构实现的,实现方法方便简单,具有较强的实用性。附图说明图1为本专利技术方法流程示意图。图2为本专利技术全卷积隐藏神经网络模型示意图。图3为本专利技术全卷积隐藏神经网络模型网络优化方式示意图。具体实施方式为了使专利技术实现的技术手段、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本专利技术。根据图1、2、3示,本实施例提出一种基于全卷积网络的深度模型的场景文本擦除方法,包括以下步骤:步本文档来自技高网...

【技术保护点】
1.一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于,包括以下步骤:步骤一:数据采集,收集并合成对应的文本与非文本图片,并人工标注成对的真实自然场景数据;步骤二:训练网络,首先构建一个条件生成对抗全卷积隐藏神经网络模型用于完成自然场景文本自动擦除任务,然后将成对图片输入到全卷积隐藏神经网络模型,计算相对应的代价函数,再将自然场景文本图片输入到全卷积隐藏神经网络模型中,利用多个重组的回归损失和对抗性损失作为监督信号,以交替训练的优化方式来训练全卷积隐藏神经网络模型直至收敛;步骤三:测试网络,输入一张自然场景文本图像,利用全卷积隐藏神经网络模型返回预测结果。

【技术特征摘要】
1.一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于,包括以下步骤:步骤一:数据采集,收集并合成对应的文本与非文本图片,并人工标注成对的真实自然场景数据;步骤二:训练网络,首先构建一个条件生成对抗全卷积隐藏神经网络模型用于完成自然场景文本自动擦除任务,然后将成对图片输入到全卷积隐藏神经网络模型,计算相对应的代价函数,再将自然场景文本图片输入到全卷积隐藏神经网络模型中,利用多个重组的回归损失和对抗性损失作为监督信号,以交替训练的优化方式来训练全卷积隐藏神经网络模型直至收敛;步骤三:测试网络,输入一张自然场景文本图像,利用全卷积隐藏神经网络模型返回预测结果。2.根据权利要求1所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述步骤一中合成的一定数量的成对的自然场景文本与非文本图片需要被划分成训练集和测试集,训练集用于训练全卷积隐藏神经网络模型,测试集用于测试全卷积隐藏神经网络模型的性能。3.根据权利要求1所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述步骤二中条件生成对抗全卷积隐藏神经网络模型由三个子网络组成,具体为生成器网络、判别器网络和损失网络,所述生成器网络是基于全卷积神经网络的结构进行设计的,它的输入是一张自然场景图片。4.根据权利要求3所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述判别器网络是由多个卷积层加正则化层以及激活层组成,将输入图片与预测结果一起送入判别器网络,经过卷积层提取高维特征之后,接入激活函数层,最终输出关于对应感受野图片块真假的预测分数。5.根据权利要求3所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述损失网络由VGG网络组成,所述VGG网络由多个卷积层、正则化层、激活函数层以及池化层叠加而成,将对应的预测图片和真实标签图片一起送入损失网络,可以进行优化两张图片在高维特征上的距离。6.根据权利要求1所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述步骤二中将成对图片输入到全卷积隐藏神经网络中时,首先由卷积特征抽取支路网络抽取高维特征进行文本与非文本特征的区分,接受由反卷积支路去预测对应的非文本特征。7.根据权利要求6所述的一种基于全卷积网络的深度模型的场景文本擦除方法,其特征在于:所述步骤二中将成对图片输入到全卷积隐藏神经网络中的过程中,由于特征经过低维到高维再到低维的转换,一些细节信息会被丢失,...

【专利技术属性】
技术研发人员:金连文张帅涛刘禹良
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1